百度TTS效率远超谷歌 押宝语音交互将成新增长点
根据5月26日美国科技媒体Engadget的报道,百度的DeepVoice TTS系统日前取得了巨大进步,该系统如今不仅能与人类的声音更为接近,甚至可以精准的模仿不同地区的口音。
百度方面则表示,如今的Deep Voice 2可以实现学习数百种不同的语音。虽然从每个说话者那里吸收的数据不到半个小时,但却依旧可以实现很高的音质,而以前这个过程至少需要20小时的训练。在短短几个月的时间内,Deep Voice 2系统就已经在效率上远远地超越了谷歌家的WaveNet。
百度称与Deep Voice 2之所以进步如此迅速的原因,是因为与之前的TTS系统不同,现如今的Deep Voice 2可以完全凭借自己的能力找到进行训练的语音之间的共同特点,不需要接受任何事先指导。
与此同时,百度还在一篇论文中总结道,Deep Voice 2的神经网络只需要通过数百个不同的讲话者吸收很小的声音样本便可创作很好的语音效果。
其中不得不提的一点,就是所谓的TTS其实是Text To Speech的缩写。翻译过来就是将“从文本向语音”。而这也正是人机对话的一部分,是让机器能够说话的重要因素。在内置芯片的支持之下,通过神经网络的设计,TTS可以把文字智能地转化为自然语音流。
而如何才能与机器进行自然的语音交互,是我们一直以来追求的方向。不过即便如今语音识别已经达到了相当高的准确度,但在语音交互的回路中不只有语音识别,深度神经网络在促进语音合成的发展上也有非常大的潜力。
如今百度在语音交互的探索,可以说是在BAT中,发力最猛,布局最广的企业,大有将宝压在语音交互上的意思。而百度为此不仅聘请了世界顶级的语音交互专家,同时百度还组建了多个涉及到语音交互的项目团队。
由此看来,可能要不了多久就能听到数字语音助手用更加自然的语音与我们交流。
领略科技创新,分享领袖观点。更多资讯尽在电科技微信公众号:adiankeji