AWS 最新的文本转换语音已经有播音员的感觉了
文本语音转换引擎因为机器学习技术的发展而取得了巨大进步。我们以前很容易分辨出计算机合成的声音,现在完全不一样了。亚马逊云计算部门 AWS 今天发布了全新的自然文本转换语音模型,和模仿新闻播报员的语音风格。
亚马逊在发布会上表示:“语音质量很重要,但要让机器合成的语音听起来更真实、更有吸引力,我们还有很长的路要走。谈到语音的风格,毫无疑问,人类的耳朵可以分辨新闻节目、体育节目、大学课程等等; 事实上,大多数人在适当的语境下使用适当的语音风格,这有助于别人去理解他们的表达。”
这种全新的新闻播报员语音风格目前有两种美式口音,亚马逊已经和《今日美国》、加拿大的《环球邮报》以及其他一些公司取得合作,来帮助他们实现文本语音化。
你可以听一下这段:
这项全新服务官方称之为 Amazon Polly Newscaster,它是多年来对文本转换语音的研究成果。这款全新的转换引擎共有 11 种口音,其中 3 种是英式英语,8 种是美式英语,与谷歌的 WaveNet 等类似的自然语音引擎没有什么不同。
这段是女声:
在这个充斥着假新闻的时代,使用这种听起来像真正的新闻播音员一样的合成语音,一开始会有点难以接受。不过换个角度想,以前用人工读的文本现在可以用合成的也是好事一件。电脑合成声音有很多不错的用途,而且从 AWS 提供的示例来看,新的合成音色比之前的要更加耐听。
AWS’ new text-to-speech engine sounds like a newscaster