2018机器阅读理解技术竞赛在机器阅读理解领域掀起了热潮,自3月1日正式开放报名至今,已经有800多支团队或个人报名参赛。3月31日,竞赛将停止报名,同时开放百度DuReader新数据集,参赛者可登录竞赛官网(http://mrc2018.cipsc.org.cn/)下载,并开启竞赛任务。还未报名的研究团队,也可抓住最后的时间,登录官网报名参赛。3月31日报名的队伍当天即可下载新数据集。
2018机器阅读理解技术竞赛由百度公司、中国中文信息学会(CIPS)、中国计算机学会(CCF)联手举办,旨在为研究者提供学术交流平台,进一步提升阅读理解的研究水平, 推动语言理解和人工智能领域技术和应用的发展,是中文机器阅读理解领域的重大赛事。
大赛信息一经公布,便受到了全球机器阅读理解领域研究者的广泛关注。截至3月25日,全球参与竞赛的队伍和个人注册报名数量达到824个,其中国际队伍109个,国内报名队伍715个。参赛的国际团队来自美国、英国、加拿大、新加坡等十余个国家。高校、科研院所和企业是参赛队伍中的主力,333支报名团队来自高校和科研院所,112支团队来自企业。据统计信息,全国116所211高校中,将近一半有研究团队报名参赛。
为了给本次参赛的研究者们提供有力的支撑,百度将提供来自搜索引擎真实应用场景的大规模中文阅读理解数据集DuReader,包含百度搜索用户的30万个真实问题,每个问题对应5个候选文档文本,以及人工撰写的优质答案。同时,数据集还标注了问题类型、实体和观点等丰富信息,并且划分为27万的训练集,1万开发集和2万测试集。其中,去年11月百度首批发布的DuReader数据集中的20万问题数据,参赛者可自由下载用于训练和测试,本次竞赛的30万数据集(包括新增的10万问题数据集)将于3月31日凌晨0点正式在官网数据下载区公布,参赛者可以重点关注。
机器阅读理解(Machine Reading Comprehension)是指让机器阅读文本,然后回答和阅读内容相关的问题。阅读理解是自然语言处理和人工智能领域的重要前沿课题,对于提升机器智能水平、使机器具有持续知识获取能力具有重要价值,近年来受到学术界和工业界的广泛关注。百度在自然语言处理(NLP)领域已经过十余年积累与沉淀,具备了最前沿、最全面、最领先的技术布局,不仅专注于前瞻技术探索,更致力通过技术应用解决实际问题。
目前,世界机器阅读理解领域经典赛事多集中在英文领域,比如由斯坦福大学发起的SQuAD挑战赛以及微软的MS MARCO机器阅读理解测试,而基于百度DuReader的2018机器阅读理解技术竞赛无疑将成为中文机器阅读理解领域的一大盛事。报名地址及赛事详情可登录2018机器阅读理解技术竞赛官网了解。