谷歌神经网络研究报告：Transformer解决翻译难题

亿欧网 • 7年前扫码分享

【编者按】我们所熟知的机器翻译工具在翻译过程中，其效果可能并不是非常好，会出现一些明显的错误。最近，谷歌利用神经网络技术来处理语言理解，优化其翻译效果。

本文中介绍了谷歌研发的新工具 Transformer （转换器），这是一种基于自我关注机制的新型神经网络架构。

本文来源于research.googleblog，作者Jakob Uszkoreit；由亿欧编译。

神经网络，特别是循环神经网络（RNNS），是语言建模、机器翻译和问答系统等语言理解任务的主要核心方法。本文中我们将介绍Transformer（转换器），是一种基于自我关注机制的新型神经网络架构，并且非常适用于语言理解。

Transformer（转换器）优于英语到德语及英语到法语之间翻译基准的反复性和卷积模型。对于更高的翻译质量而言，转换器只需要较少的计算来进行训练，同时更加适合于现代机器学习硬件。

谷歌神经网络研究报告：Transformer解决翻译难题

语言理解的准确性和效率

神经网络通常通过生成固定的或变长的向量空间模型表示来处理语言。从单个单词或是部分单词的表示开始，神经网络便从周围的单词中收集信息，以确定上下文中特定语言的含义。例如，在“I arrived at the bank after crossing the…”这句话中，要确定句中“bank”的意思代表“银行”还是“河岸”，那么就必须知道句子结尾是“路”还是“河”。

近年来，RNNs成为典型的翻译网络架构，以左向右或右向左的方式顺序处理语言。一次读一个单词，这迫使RNNs执行多个步骤来做出决定，这些决定依赖于这些不相连的单词之间的关系。在上述例子中，RNN只能通过逐步阅读“bank”和“river”之间的每个单词后才能确定“bank”在这里意味着“河岸”的意思。之前的研究表明，决策需要的步骤越多，循环网络就越难做出这些决定。

RNNs的顺序特性也使得充分利用诸如TPUs和GPUs等现代快速计算设备变得更加困难，因为这些设备擅长并行处理而不是顺序处理。卷积神经网络（CNNs）的序列比RNNs要少得多，但在CNN的架构中，要整合来自远端输入信息的步骤数量随着距离的增加而增多。

Transformer（转换器）

相比之下，转换器只需执行少量的、持续的步骤。在每个步骤中，它应用了一种可以直接与句子中所有单词建立关系的自我关注机制，且不需要考虑单词所在的位置。在上述例子中，“我过河后达到了河岸。（I arrived at the bank after crossing the river.）”这句话中，转换器只需识别到““river”就能对“bank”的意思做出决策。

具体来讲，如果要计算出给定单词“bank”的意思，转换器会将其与句子中的其他单词进行比较。这种比较的结果是对句子中的每个单词赋予其关注度得分。这些关注度分值决定了每一个单词对“bank”意思的贡献度。例如，消除歧义的单词“river”对“bank”表示“河岸”的意思做出巨大贡献值，也得到很高的关注度得分。这些关注度得分的加权平均值被输入到一个全连通的网络，从而生成“bank”的意思是与河岸相关。

机器翻译的神经网络通常包含一个编码器来读取输入语句并生成其表示。然后，译码器在咨询编码器生成的表示时，逐字生成输出的句子，这些由未填充的圆圈表示；然后通过自我关注，转换器从所有其他的单词中聚合信息，在整个上下文中生成一个新的表示，由填充的圆圈表示；最后这个步骤并行重复多次，从而形成一个新的表示。

解码器运行规律类似，但每次都按照从左到右的顺序生成单词。它不仅包括之前生成的单词，还包括由编码器生成的最终表示。

谷歌神经网络研究报告：Transformer解决翻译难题

信息传输

除了计算性能和更高的准确性以外，转换器还能够形象化地显示如何处理给定的单词，以及信息是如何在网络中传输。

为了说明这一点，我们选取了一个众所周知的挑战机器翻译系统的案例：指代消除。让我们来看一下下面的句子及其法语翻译。

谷歌神经网络研究报告：Transformer解决翻译难题

很明显，在第一个句子中，“it”指的是动物，第二个句子中，“it”其指的是街道。

在将这些句子翻译成法语时，“it”的翻译取决于名词的阴阳性，而法语中的“animal”和“street”则有不同的属性。与现行的谷歌翻译模型不同的是，转换器能将这两句话正确地翻译成法语。当计算“it”的最终表示时，转换器注意到编码器所关注的单词，从而揭示了网络是如何做出决定的。在其中的一个步骤中，转换器清楚地确定了“it”所指代的两个名词，并在不同语境中做出正确选择。

谷歌神经网络研究报告：Transformer解决翻译难题

编码器将其自我关注分布在转换器英译汉训练模型中的第5层和第6层。

鉴于此，转换器在句法选区解析的经典语言分析任务中表现良好，也不足为奇，这也是自然语言处理群体几十年来针对高度专业化系统的突破。

谷歌自然语言理解部门的软件工程师Jakob Uszkoreit表示，我们对转换器的未来潜力非常感兴趣，并且已经开始将其应用到其他问题，不仅包括自然语言，还包括不同的输入和输出，例如图像和视频。

2017年8月25日，亿欧智库正式发布《2017人工智能赋能医疗产业研究报告》，该报告总结八大应用场景，从产品形态、业务模式、公司现状等角度对各场景进行深度解析，进而对我国医疗人工智能公司宏观数据和巨头企业布局进行盘点，最后提出“人工智能+医疗”未来发展机遇与挑战。了解更多报告内容，请点击：《2017人工智能赋能医疗产业研究报告》

谷歌神经网络研究报告：Transformer解决翻译难题