继AlphaGo后，DeepMind最新AI进展：语音合成技术已接近人类语言水平

雷锋网 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

AlphaGo 背后的谷歌人工智能部门 DeepMind 近日披露最新研究成果，其正在设法研发出更为接近人类实际语言水平的机器语音合成系统。据说，这个被称为 WaveNet 的新型人工智能系统是一种深层神经网络，能通过抽样现实中的人类语言形成原始音频波形，最后达到生成语音的目的。

从面向广大英语和普通话听众的测试中发现，WaveNet 的表现已经优于现有的语音合成系统，但结果还是略逊于人类真正的语言水平。

目前的语音合成系统只有两种工作方式：第一种是截取实际的讲话录音，然后打碎重组成新的语音——有点像绑架电话惯用的手段；另一种是依赖电脑合成，通过编程生成语音，这意味着它不需要预先录制好语音材料，但是听起来的效果并不好，很像机器人。

另一方面，WaveNet 仍然使用真实的语音输入，但通过学习和模仿来合成语音，而不是将其打破重组。项目的研究人员写道：“单单一个 WaveNet 就能以相同的保真度捕捉记录下各个不同说话者的特点，并且可以任意切换声音。”

同样令人印象深刻的是，它可以利用诸如唇部运动和人工呼吸来模拟语调、情绪和口音。如果这还不够，WaveNet 也许还能像钢琴一样弹奏乐曲，研究人员只需提供一些经典片段，它就能创作出自己的作品。

DeepMind在 Twitter 发文称：“让人类和机器对话是人机交互领域长久以来的梦想”

via slashgear