2012年,全球最大语音技术厂商Nuance曾占据62%的全球语音市场。随后,开源语音工具导致语音产业的技术门槛降低,场景为王时代到来,错失机遇的Nuance在智能语音市场步步失守,2015年市场份额已下降到31.6%,被谷歌、苹果、微软、科大讯飞等企业迅速瓜分。
智能语音2.0时代,场景的重要性不言而喻。谁能赋予声音更多的表现力和个性化,谁就能将技术适配到非标准化的广阔场景中,赢得智能语音市场的未来。科技巨头看到这一趋势,纷纷祭出语音合成“定制化”的大旗。语音合成技术正式进入定制化的2.0时代。
语音合成定制化哪家强
微软是智能语音行业的领先企业之一。今年5月份的Build 2018 大会上,其在公有云平台上推出了语音合成定制服务产品Custom Voice。将语音和对应文本(500句)上传,Custom Voice即可对声音进行模拟,并在线测试模拟效果。Custom Voice采用全程可视化操作界面,普通用户可快速上手,显示出微软打造定制化、平民化产品的用意。
微软推出的语音合成定制服务Custom Voice 来源:微软Custom Voice页面
无独有偶,近期谷歌人工智能实验室成立的 Lyrebird(琴鸟)公司,也推出了自己的定制语音合成系统。同微软的Custom Voice类似,30句英文声音录入后,系统就能在“倾听”中“掌握”每个人说话时字母、音位和单词的发音特点,通过推理并模仿声音中的情感、语调,“说”出全新语句。目前Lyrebird还存在一些缺陷,如合成语音夹杂电流声,中文语句的录入与合成表现都不理想等。
谷歌lyrebird(琴鸟)语音合成系统页面 来源:谷歌琴鸟系统页面
在国内,唯一能与微软、谷歌同台竞技的就是科大讯飞。去年2017年11月,科大讯飞推出名为“讯飞留声”的测试版本,比微软的Custom Voice还要早半年时间。经过不断优化,讯飞留声制作完整音库只需10句话声音录入,远低于微软采集的500句,亦低于谷歌的30句,采集量只有行业平均的百分之一,合成效果更好。
讯飞留声PK谷歌的同类产品
“讯飞留声”还以微信小程序(微信搜索“讯飞留声Lite”小程序)的形式呈现,可以实现“即用即走”。不仅声音制作过程更加便捷,用户还能在微信这款中国最大的社交软件上分享制作效果,吸引了大批用户的关注。阿拉丁统计数据显示,小程序上线1个月(截至2018年8月8日),讯飞留声访问次数超过51万 ,新用户增长率达到568%,位居阿拉丁“成长最快小程序”周榜第13名。
技术实力成比拼关键
科大讯飞语音合成定制业务的快速发展,离不开其雄厚的技术实力支持。2000年之前,中文语音产业由国际IT巨头控制,如微软、IBM等。如今,科大讯飞已彻底扭转中文语音市场几乎全部掌握在国外公司手中的格局,成为亚太地区最大语音和人工智能上市公司。
科大讯飞不仅中文语音合成效果出色,在国际英文语音合成大赛上也是屡屡得冠。2006年,科大讯飞首次参加国际英文语音合成大赛(Blizzard Challenge),即获得自然度第一的优异成绩,至2018年已连续13年蝉联该项赛事冠军,成为该项赛事中唯一一家自然度超过4分(普通人说话水平)的参赛方。
在2018国际语音合成大赛的比赛中,科大讯飞摘得10个测评打分项目中的9项第一,成为“最全能的冠军”
语音合成可以用指定情感表达,但一段文本应该表现出怎样的情感变化,涉及到语义理解和上下文分析。科大讯飞除智能语音技术全球领先外,在自然语言理解上同样属业界翘楚。随着语义和语音的融合交叉发展,科大讯飞或将率先解决语音合成情感表达难题,将语音合成技术发展推向新的阶段。
领先的核心技术、丰富的反馈数据以及广阔的应用场景,三者共同搭建起语音合成的行业壁垒。科大讯飞在语音合成技术上拥有绝对优势,在商业落地层面同样表现突出,打造出导航类APP中大量明星播报音库、央视虚拟主持人解决方案等经典案例。讯飞留声的推出,更是开创了为普通用户免费提供定制化服务的先河。先发优势及强技术后盾加持下,科大讯飞为语音合成定制化的商业落地,落下了关键一子。
特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。