搜狗输入法“变声”功能:最难的那条路,往往最正确
1994年,31岁的漫画家青山刚昌画下一个男孩,他头戴大眼镜,身穿小礼服,头脑超群,精于破案。此后20多年,这个男孩的形象火遍世界,大家都知道他的名字:江户川柯南。动漫故事里,柯南拥有一个神奇的变声领结,利用它,他可以伪装成任何人,而谁也不曾想到,青山刚昌这充满想象力的设计,竟能在今天变成现实。
近日,搜狗输入法上线了“变声”功能,在它的帮助下,未来的语音聊天,我们终于可以“化声”为任何人任何角色的声音,从星爷、小猪佩奇到可爱萝莉,都可以随意切换,让沟通成为一种乐此不疲的游戏。可是,它又不止是一个游戏,变声功能背后的深层次意义,也正好可以回答一些人心中的问题:青山刚昌在1994年就畅想出来的东西,为什么我们花了25年才终于实现?
语音变声(Voice conversion)不等于语音合成
事实上,在过去25年来,人类从未停止过对变声技术的研究。以谷歌为代表的众多科技公司和国内外其他研究机构一直在进行变声技术的研发,但仅仅只是停留在研究层面,还无法达到稳定状态,难以实现最终的应用落地。
例如,谷歌最新版本的人工智能语音合成系统Tacotron 2,合成的声音几乎与真人发出的声音完全一样,但它只能实现“文本转语音”的语音合成功能;加拿大的“琴鸟”(Lyrebird)公司,利用语音模仿算法,可以模仿任何人的语音,还能在声音中加入“感情”因素,让它更生动逼真自然,但这也只是语音合成技术,只是将文字信息转化为语音信息,然后播放出来。
而目之所及,柯南所使用的“变声领结”,需要的不是合成,而是语音到语音的新技术,这其中面临的种种技术难题,把人类阻拦了25年。
语音变声:一个全新的技术领域
目前,在语音研究领域,语音变声包括多项内容。首先是机器对声音的处理,例如美化或者夸张;其次是一对一的变声,即将特定声音A转换成特定声音B;在一对一的基础之上,再进行一对多的变声——当到达这一阶段,柯南的变声领结便可以实现了,但是,此时的变声领结仍然是柯南的专属,它仍然无法处理柯南之外的其他人的声音。
搜狗语音变声技术,是可以将任何人的声音转换成特定人的声音(Any-to-One),这是变声领域难度系数最高的研究。众所周知,识别一个人的声音容易,但识别所有人的声音极难,因为每一个人的声音和语言都不尽相同。
所以,搜狗输入法“变声”功能是首次将上述的语音变声能力落实到可以实际体验的产品中,同时也开拓出了一个技术新领域。
它不仅可以将任何人的音色转换成特定人音色,而且语速、停顿、情感等说话习惯均可被转换为超高逼真度的指定角色声音,这种“语音到语音”的技术,从实用度到技术难度上来说,都是最高等级的。在“变声”这个好玩功能背后,搜狗又一次为语音行业在技术领域的扩展了版图。
最难的那条路,往往最正确
值得称赞的是,搜狗在取得了技术突破之后,并没有藏起武林秘籍,而是选择将之坦诚相告。他们从未掩饰,之所以取得如此开创性的成就,是源于搜狗在语音表征学习和风格迁移领域的突破性进展。
ICLR主席,法国巴黎大学的荣誉教授Herve Glotin曾这样表达:表征学习是机器学习的根本。通过表征学习,机器可以更好地进行语音的识别,而加上风格迁移的支持,机器可以识别出语言中的风格和内容,二者整合在一起,可以将一个人说话的音色和另一个人说话的韵律以及内容融合,最终完美呈现出来。
以变声为支点,可以撬动众多行业
阿基米德曾有名言:“给我一个支点,我能撬动地球。”搜狗输入法实现的这个变声功能,也拥有撬动多个行业的潜力。
首先在用户层面,变声功能可以围绕搜狗输入法形成“语音表情包”,丰富聊天内容,而这很有可能形成全新的流行文化,为社交环境增加全新的“调味料”;在行业层面,搜狗语音变声技术可以服务于不同场景的音频内容制作,使生产效率得到大幅提升,未来在线教育、景点导游、电商广告等场景的音频制作,都可以使用搜狗,从而大大优化用户的使用体验。
More than a game,这是对搜狗语音变声的一个精准评语,它目前看上去或许只是一个社交聊天的新玩法,但不会停留于此,它真正的舞台,是在踏步而来的、名叫人工智能的未来。
雷锋网版权文章,未经授权禁止转载。详情见。