今年盛夏,对于开发者们来说,最火爆的事莫过于7月4日、5日在国家会议中心举办的百度AI开发者大会。7000余开发者齐聚一堂,共同见证、探索百度AI技术的最新技术和进展。
在主论坛上,百度发布了百度大脑3.0,百度高级副总裁、AI技术平台体系总负责人王海峰表示:“百度AI能力的核心是百度大脑,百度大脑3.0是百度AI能力的集大成者。”
王海峰介绍了百度大脑的演变历程。百度大脑1.0完成基础能力搭建和核心技术初步开放,2.0形成了完整的技术体系,开放60多项AI核心能力,3.0的核心是“多模态深度语义理解”,同时开放110多项AI能力。
百度大脑3.0的核心是“多模态深度语义理解”,指对文字、声音、图片、视频等多模态的数据和信息进行深层次多维度的语义理解,包括数据语义、知识语义、视觉语义、语音语义一体化和自然语言语义等多方面的语义理解技术。王海峰表示,“多模态深度语义理解不仅能让机器听清、看清,更能深入理解它背后的含义,深度地理解真实世界,进而更好地支撑各种应用。”
数据语义化技术可以将大千世界中多元、异构和多模态的三元空间大数据,形成包含千亿节点、万亿关系的庞大数据语义网络,从中总结规律、提炼知识、发现价值,助力经济和社会发展。而多元语义知识方面,百度已经构建了包含数亿实体、数千亿级事实的庞大知识图谱。除了基础的由实体、属性、关系构成的实体图谱,百度还针对不同的应用场景和知识形态,构建了关注点图谱、事件图谱、多媒体图谱、行业知识图谱等多种图谱。所有这些知识,构成了百度大脑的基础。
视觉语义化可以让机器从看清到看懂视频,并提炼出结构化语义知识。视觉语义化技术应用于世界杯视频解析,能够全面识别视频中的球员、裁判、球、以及球门、球场线等人、物和场景,可以捕捉射门、进球、角球、任意球、换人等事件。基于这些语义化知识,既可以完成机器人自动解说,也可以进行精彩片段集锦、以及各种数据统计分析等。
语音语义一体化和自然语言理解技术能让机器准确识别并理解人说的话,实现更自然的人机对话。王海峰介绍,百度高噪声环境Hand-free语音识别准确率已提升了10个百分点;语音语义一体化技术使得远场语音识别准确率提升了10个百分点;在语音合成方面,WaveNet+拼接的情感语音合成技术,使得流畅度和自然度也大幅提升。
王海峰以对话理解和阅读理解为例,为大家介绍了领先的百度自然语言理解技术。百度的对话理解技术已经积累多年,通过研发最新的深层注意力匹配模型,比已知的最好结果又提升了4.1%。在阅读理解技术上,百度大脑已经阅读了千亿量级的文章,相当于6万个中国国家图书馆的藏书,并由此积累了亿级实体、千亿事实的知识。通过持续获取和积累知识,百度大脑的理解能力不断升级,智能水平显著提升,进而能够更好地服务用户。
特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。