经过3个月的角逐,爱奇艺联合全球多媒体领域顶尖会议ACM International Conference on Multimedia(以下简称ACM MM)共同举办的多模态人物识别竞赛于近日正式落下帷幕。本次大赛,吸引了包括卡内基梅隆大学、伦敦大学学院、埃克塞特大学、清华大学、北京大学等国内外顶尖高校,以及百度、中兴、京东、美图、英伟达等知名企业在内的共255支团队同场竞技。其中,来自于北京邮电大学自动化学院、北京邮电大学网研院网络智能中心以及南京大学计算机科学与技术系的团队分别获得前三名。 获得第一名的北京邮电大学自动化学院团队将多模态视频人物识别精准度提升到了91.14%,爱奇艺携手顶尖参赛团队在多模态人物识别领域再次取得突破。此次竞赛的颁奖仪式将在10月21日至25日在法国尼斯举办的第27届ACM MM 大会上进行。
目前,全世界众多科技公司以及学术机构发布视频数据集,侧重解决视频识别各种难题。其中,牛津大学发布过VoxCeleb2数据集,包含6千多人,15万视频,侧重于解决说话人识别的问题;香港中文大学和商汤科技合作发布的包括1218人,12.7万视频CSM数据集,为了更好地检索识别视频中的说话的人物。以色列特拉维夫大学的Youtube Faces DB,拥有3425个视频片段与1595个人物,用以解决非约束环境下的人脸识别问题。此次,爱奇艺发起的多模态人物识别挑战赛中,对参赛者公布了通过严格人工标注、更具有挑战性的多模态人物数据集(iQIYI-VID-2019),包含10000名明星人物、200小时、20万条影视剧与短视频数据集,更接近实际应用场景,其中包括脸部,头部,身体及声纹4个模态的特征,为学术界及工业界利用多模态特征去更全面解决场景复杂、人体动作多变、化妆等人物识别难题提供了便利条件。参赛团队无需使用自己的计算资源去提取特征,这样大大降低该竞赛对硬件资源的门槛,吸引了更多全球顶尖优秀的学术机构团队参与,加快提升人物识别技术不断向前演进。此次拔得头筹的北京邮电大学自动化学院团队,在爱奇艺公布的4个模态特征的基础上,重新训练了对齐的人脸识别模型,利用数据增强和这5种模态信息训练完成多模态分类模型,在数据集难度提升的情况下,将多模态视频人物识别精准度由去年的88.65%提升到了91.14%,提升幅度达2.5pp,成为多模态视频人物识别竞赛中的全球最佳算法。
多模态人物识别技术精准度进一步提升意味着,爱奇艺可以通过对复杂场景下精准识别为用户带来更优的视频消费体验,进一步提升娱乐系统的效率,例如,通过识别短视频、UGC内容中模糊、侧面、距离远等复杂场景中的人物,更好地为用户精准推荐内容,加强爱奇艺个性化内容分发能力;在AI雷达中,通过对视频人物的精准识别,通过只看TA的功能让用户享受到更为个性化的互动体验;可以使HomeAI智能语音交互平台提升用户的交互体验;以及让AIWorks视频智能创作对长视频进行更精准的拆条,进一步提升爱奇艺爱创媒资系统制作爆款剧的效率等。
爱奇艺首席技术官兼基础架构和智能内容分发事业群总裁刘文峰表示,多模态人物识别竞赛不断取得突破,除了对爱奇艺娱乐生态产生重要价值之外,对人物识别技术的研发,技术成果转化效率,相关人才培养都会产生深远的影响。未来,爱奇艺将不断与国内外学术机构、行业领先者合作,不断提升前沿技术的探索与实践。