Google推出Tacotron 2:结合WaveNet,深度神经网络 TTS 媲美专业级别
雷锋网按:今年3月,Google 提出了一种新的端到端的语音合成系统:Tacotron。该系统可以接收字符输入并输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法直接生成语音。该论文认为这一新思路相比去年 DeepMind 的 WaveNet 具有架构上的优势。10 月,Deepmind发布博客称,其新的WaveNet 模型比起一年前的原始模型效率提高 1000 倍并正式商用于Google Assistant中(参见雷锋网文章:《 Deepmind语音生成模型WaveNet正式商用:效率提高1000倍 》),而就在今天,Google Brain 团队发布博客,宣布推出 Tacotron 2,Google Brain 与 DeepMind 的暗中较劲仍在继续。
以下是 Google 博客的相关内容,让我们来看看此次 Tacotron 2 的更新情况:
从文本(文本到语音,TTS)生成非常自然的探测语音已经成为过去数十年的研究目标。在近几年中,TTS研究取得了很大的进展,TTS系统有许多独立的模块都有了很大的改进。结合在 Tacotron 和 WaveNet 等过去研究思路,我们增加了更多改进,最终实现了我们的新系统 Tacotron 2 。我们的方法不使用复杂的语言和声学特性作为输入,相反,我们仅使用语音示例和相应的文本记录进行训练的神经网络,来从文本生成类似人类的语音。
对于这一新系统的完整描述可以在我们的论文“Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions”(通过调节 WaveNet 对 Mel 谱图预测的自然 TTS 合成)中找到。简而言之,其工作原理是这样的:我们使用针对 TTS 优化的序列到序列模型来映射序列字母到编码音频的一系列功能。这些功能是一个 80 维音频频谱图,每 12.5 毫秒计算一次帧,不仅可以捕捉单词的发音,还可以捕捉人类语音的各种微妙之处,包括音量,速度和语调。最后,这些功能使用类似 WaveNet 的架构转换为 24 kHz 波形。
(图为 Tacotron 2 的详细模型架构。图像的下半部分描述了将字母序列映射到光谱图的序列到序列模型。更多技术细节请参阅相关论文。)
您可以 点击这里听一些 Tacotron 2 生成的音频样本 。在一个评估中,我们要求听众对生成的语音的自然度进行评分,并获得了与专业录音相媲美的评分。
虽然我们的样本听起来不错,但仍然有一些棘手的问题需要解决。例如,我们的系统在复杂的单词(例如“decorum”和“merlot”)的发音上有困难,在极端的情况下甚至会随机产生奇怪的噪音。另外,我们的系统还不能实时生成音频。而且,我们还不能控制生成的语音,比如引导它听起来高兴或悲伤。这些都是一个有趣的研究问题。
Tacotron VS WaveNet
WaveNet 是一种一种用于生成原始音频波形的深层神经网络模型,由 Deepmind 于2016年提出。在 TTS 语音合成系统中,主流的做法是拼接 TTS (由单个配音演员的高质量录音大数据库,通常有数个小时的数据。这些录音被分割成小块,然后可以将其进行组合以形成完整的话语) ,而WaveNet采取完全不同的方法。在原始论文中,我们描述了一个深层的生成模型,可以以每秒处理16000个样本、每次处理一个样本党的方式构建单个波形,实现各个声音之间的无缝转换。
上图动画展示了 WaveNet 的结构。它由卷积神经网络构建,在训练阶段,网络确定了语音的底层结构,比如哪些音调相互依存,什么样的波形是真实的以及哪些波形是不自然的。训练好的网络每次合成一个样本,每个生成的样本都考虑前一个样本的属性,所产生的声音包含自然语调和如嘴唇形态等参数。它的“口音”取决于它接受训练时的声音口音,而且可以从混合数据集中创建任何独特声音。与TTS系统一样,WaveNet使用文本输入来告诉它应该产生哪些字以响应查询。另外,为了使用 WaveNet 将文本转化为语音,需要识别文本中是什么。
Tacotron由 Google Brain 团队的 Yuxuan Wang (王雨轩)等人提出。在第一代 Tacotron 的相关论文中指出,WaveNet 对 TTS 效果良好,但由于样本集的自回归属性(sample-level autoregressive nature),其生成语音的处理速度较慢;同时,由于 WaveNet 还需要对现有 TTS 前端语言特征进行调节,因此也不是端到端的。
(上图为Tacotron最初论文中的模型架构)
在今年3月提出的模型中,Tacotron 模型取得了 3.82 的平均意见得分(满分5) 。而在最近的评估中,Tacotron 2 模型平均意见得分为 4.53,专业录音平均意见得分为 4.58。
雷锋网发现,WaveNet 大幅提高了效率后,此前的“处理速度慢”的问题已经得到解决,但仍然不是端到端。而在新的 Tacotron 模型架构中也看到,主要改进在于输出端增加了 WaveNet MoL,这样可以将 WaveNet 和 Tacotron 的优点各自结合起来,二者的“强强联合”有望促进类似语音识别一样的进步,实现语音合成的新台阶。
。