继AlphaGo后,DeepMind最新AI进展:语音合成技术已接近人类语言水平
AlphaGo 背后的谷歌人工智能部门 DeepMind 近日披露最新研究成果,其正在设法研发出更为接近人类实际语言水平的机器语音合成系统。据说,这个被称为 WaveNet 的新型人工智能系统是一种深层 神经网络 ,能通过抽样现实中的人类语言形成原始音频波形,最后达到生成语音的目的。
从面向广大英语和普通话听众的测试中发现,WaveNet 的表现已经优于现有的语音合成系统,但结果还是略逊于人类真正的语言水平。
目前的语音合成系统只有两种工作方式:第一种是截取实际的讲话录音,然后打碎重组成新的语音——有点像绑架电话惯用的手段;另一种是依赖电脑合成,通过编程生成语音,这意味着它不需要预先录制好语音材料,但是听起来的效果并不好,很像机器人。
另一方面,WaveNet 仍然使用真实的语音输入,但通过学习和模仿来合成语音,而不是将其打破重组。项目的研究人员写道:“单单一个 WaveNet 就能以相同的保真度捕捉记录下各个不同说话者的特点,并且可以任意切换声音。”
同样令人印象深刻的是,它可以利用诸如唇部运动和人工呼吸来模拟语调、情绪和口音。如果这还不够,WaveNet 也许还能像钢琴一样弹奏乐曲,研究人员只需提供一些经典片段,它就能创作出自己的作品。
DeepMind在 Twitter 发文称:“让人类和机器对话是人机交互领域长久以来的梦想”
via slashgear
推荐阅读:
为 iPhone 8 预留的大杀器?苹果无线充电专利曝光
在微软亚洲研究院工作是种什么体验? | 硬创公开课