5月21日,知乎联合清华大学对外开放基于知乎的大规模富文本查询和推荐数据集“ZhihuRec”。该数据集包含了知乎上的1亿个行为数据,是目前为止,国内用于个性化推荐的最大的实际交互数据集。
作为一个大型数据集,ZhihuRec具有社交化问答场景中的详细信息,覆盖了知乎10天内、79.8万用户、16.5万个问题、55.4万个回答、24万个作者、7万话题以及50.1万用户搜索行为日志,保留了完整的用户交互(例如点击、跳过、搜索等)、时机和内容信息,且所有数据均经过脱敏处理。
该数据集可用于评估常规top-N推荐、顺序推荐和上下文感知推荐中的算法应用,还可用于集成搜索和推荐以及带有负反馈的推荐。 此外,该数据集不仅可以用于推荐研究,还可以应用于用户建模(例如,性别预测,用户兴趣预测),搜索和推荐系统的组合以及其他有趣的主题。
个性化推荐技术已经广泛应用于购物、视频、阅读、社交等互联网场景。但开放式大规模真实场景数据集十分罕有。ZhihuRec数据集的开放,不仅丰富了开放式大规模真实场景数据集的研究样本,更填补了推荐系统中用户交互日志的空白。
知乎成立十年来,聚集了超过3 .53亿条内容,每天会新增超过2000万条创作和互动,为中文互联网贡献了宝贵的文本财富。
2018年,知乎曾联合中国信息检索学术会议(CCIR)、清华大学计算机系信息检索课题组(THUIR)共同举办了“移动环境下知识分享平台上的内容推荐”大赛,首次在比赛中开放ZhihuRec数据集,吸引了众多高校和企业技术团队参赛和关注。此次知乎联合清华大学将该数据集进一步丰富并全面开放,旨在通过更大范围的数据开源,为行业算法技术突破与演进提供更多数据和场景支持。
特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。