央视直播:科大讯飞“声音复刻”黑科技,打造首个会15种方言和30种外语的央视主播!
如果你一直把人工智能(AI)当作科学幻想,觉得缺乏真实感,恐怕是受到了文学或影视作品的影响。其实人工智能早已在不知不觉中融入我们生产生活各个领域,用来描绘很多东西,例如有形的机器人、无人驾驶 汽车 、智能音箱……也可以是 苹果 语音助理Siri、谷歌围棋大师AlphaGo、精通10余种方言30多种外语的主持人“王小言”等等。
12月29日,央视新闻新年特别报道专题《中国永远在这儿》,坐在央视演播厅内做连线的主持人王言意外发现:有一个和自己极其相似的声音通过电视直播端传过来,此时场外连线的是位于安徽合肥·中国声谷·科大讯飞演示厅内的一台“会说话”的机器。
这台机器正在向演播现场发回报道,“王言你好,我是主持人王小言。今天我会在中国声谷,向大家展示这里的新变化,也欢迎大家来这里参观学习,我会一直在中国声谷等着你们。”这位“王小言”主播不仅用地道的四川话向观众们问好,还用印地语道早安,这让央视演播厅的王言颇感震惊,感叹“就像找到了自己失散多年的亲弟弟。”
据央视记者江凯介绍,主持人“王小言”的声音来自于科大讯飞个性化智能语音合成的黑 科技 ——声音复刻。2018年世界机器人大会上,科大讯飞董事长刘庆峰就曾表示,“我们使用的导航软件里林志玲、郭德纲的声音就都是他们合成的。大量且复杂的语言表达让真人预先录制显然不现实,因此使用机器合成的作用越来凸显。”
语音“黑科技”三分钟复刻声音
对多数人来说,最常接触到的是语音合成技术,赋予机器“开口说话”的能力。更高级的是,科大讯飞AI赋能使机器摆脱了机械化的发音,像真人拥有情感表现力、抑扬顿挫的声音。目前科大讯飞最新个性化语音合成技术,只需采集十段话语料,训练三分钟时间,即可实现“栩栩如声”的声音复刻,让声音与发音人几乎一样。据悉,本次节目播出前,来自讯飞留声团队通过采集王言平日节目中的声音,实现了声音复刻,最终让主持人“王小言”惊艳出场。
这项“语音黑科技”不仅复刻发音人的普通话,还能根据需求变换口音。据悉,讯飞的声音复刻能让机器“讲”粤语、四川话、河南话等10余种方言和英、日、韩、法等近30种外语。然而这一过程并不需要重新采集发音人的语音,而是通过文本输入就实现了“变声”。
定制专属音库声音复刻的福祉
声音复刻技术是划时代的,并且很有意义。早在2013年,科大讯飞与高德导航合作,将林志林的声音“代入”地图导航中,此后接连复刻了包括郭德纲、周星星、王俊凯、王源、易烊千玺、罗永浩、高晓松、黄晓明等大众所熟知的明星大咖的导航语音包。
2018年1月,央视播出的大型纪录片《创新中国》,科大讯飞利用A.I语音合成技术成功“复活”了已故配音艺术家李易老师的声音,并通过A.I.完成了纪录片的全程配音。
2018年3月1日,AI虚拟主持人在南方财经报道正式上岗。此次虚拟主持人的全新亮相,是科大讯飞与南方财经全 媒体 集团跨界合作的创新成果,通过讯飞智声提供的个性化语音合成和机器学习,完全模仿真实主持人的声音,并将其应用于财经新闻播报,在我国尚属首例。
复刻自己的声音拓展使用场景
不用羡慕,这项黑科技并非主持人和明星大咖的专属,科大讯飞已上线“讯飞留声Lite”的 微信 小程序,通过自动建立深度学习模型就可以训练出用户的音库,为用户提供能快速、便捷、完美复刻声音的平台。也就是说,你只需要读出10段话,就能收获一个专属自己的复刻声音。如此简便的复刻操作,自己的声音是否安全呢?会不会被别人盗用呢?对于这些顾虑,科大讯飞研发团队为确保声音安全,每个人在讯飞留声内进行音库制作都必须经过实名认证,并且复刻的声音仅限于让机器朗读既定的文本,不支持第三方编辑下载,从而保证用户在体验黑科技的同时兼顾个人信息安全。
如今,科大讯飞将声音复刻技术产品化做到了极致,先后出品了任意文章资讯小说每天都可以听的“讯飞有声”,打造有“所有书都能听”的讯飞阅读,多陪孩子一点的“呀呀伴读”,体现了有温度的科技。借助声音复刻,智能音箱中女朋友的声音每天准时叫你起床,为你播报天气,提醒你添衣带伞;车载导航系统里,你妻子、孩子的声音为你保驾护航,提示你安全驾驶,早点下班回家;又或者,你将自己的声音预置到智能玩具中,让它替你与孩子互动,伴孩子入眠;即使你远在外地,依旧能够“近距离”陪伴家人!
AI技术前沿是无人区,每一步都是挑战,但也处处收获惊喜。专注于人工智能和智能语音的科大讯飞获得国际语音合成比赛13连冠,在相似度、自然度、错误率、段落总体感觉等指标上均名列前茅。该语音合成系统也是业界目前自然度指标唯一达到真人说话水平的系统,合成的声音更具真实感和人情味。可以预见,随着中国AI力量的不断崛起,将会在国际上扮演越来越重要的角色。