小狗Puppy都是狗！DeepMind大招，以视觉为媒介，做无监督机器翻译，效果极好

雷锋网 • 5年前扫码分享

作者 | 蒋宝尚

当两个语言不通的人进行交流时候，手势和眼神自然就成了沟通神器。有时候，手势和眼神在表达意思的时候能胜过千言万语。

能不能将这种类似的优势用在机器翻译？

近日，来自DeepMind、牛津大学以及卡内基梅隆的研究者合力发表了论文《Visual Grounding in Video for Unsupervised Word Translation》，提出用视觉基础改善无监督的单词映射。

小狗Puppy都是狗！DeepMind大招，以视觉为媒介，做无监督机器翻译，效果极好

（雷锋网）此篇论文也被收录到CVPR 2020。论文下载地址：https://arxiv.org/pdf/2003.05078.pdf

论文的基本思想是：地球上的人类可能说着数千种不同的语言，但用“眼”看到的世界确是只有一个，有了这个视觉基础，就可以弥合语言之间的差距。

总体思路：利用教学视频获取共享视觉

作者在论文用的方法也很简单，模型通过“观看”视频，能够在两种语言之间建立共同的视觉表征，即在给定共享嵌入情况下构建视觉-文本混合映射算法。

小狗Puppy都是狗！DeepMind大招，以视觉为媒介，做无监督机器翻译，效果极好

（雷锋网）虽多种语言，描述的是同一种事物

举个简单的例子，儿童在学习语言的时候，更多的是观察环境并与周围的人互动，在这过程中，并不需要任何明确的指导和监督。他们在学习多门语言的时候，可以利用不同情况下的相似情境：他在周一听到“狗在吃东西”时候看到景象，与周五听到“le chien mange”句子时候看到的景象是类似的。

作者们在构建无监督翻译系统的时候，就借鉴了上述思路：向系统提供不同国家人做事情的视频，同时用他们本国语言解释他们在做什么。选用内容大致相似的教学视频，比如虽然是不同语种，但是都是在教人如何榨橙汁的教学类视频。

教学视频在YouTube上大量存在，并且内容相似度非常高，所以作者使用了教学视频作为训练数据。
虽然使用自动语言识别技术能够得到了很多视频和相应的字幕，但收集的数据有很多瑕疵：首先对教学视频中的内容进行聚类并不容易，其次有时候教学视频中的“讲师”说着与主题无关的废话。

小狗Puppy都是狗！DeepMind大招，以视觉为媒介，做无监督机器翻译，效果极好

虽然有挑战，但是这种共享视觉促进了翻译的精准度。如上图所示，作者在论文提出的英法翻译。据说，通过看视频，在翻译常用词和视觉词时能达到28.0%和45.3%的正确率，对比基于检索翻译方法正确率12.5%和18.6%高了不少。

模型架构：多语言无监督学习

小狗Puppy都是狗！DeepMind大招，以视觉为媒介，做无监督机器翻译，效果极好

（雷锋网 (公众号：雷锋网) ）

如上图所示，整个模型包括3个编码器，一个是针对语言X的，一个是针对Y的，一个是针对视频Z的。这三个编码器组成的模型，经过训练之后，其目标是能够视频Z建立X语言与Y语言的映射。

语言X编码器由3部分组成：1、词嵌入层；2、简单的位置的全连接前馈网络层（a position-wise fully connected feed-forward layer）；3、一个线性层。其中词嵌入层的作用是将序列转换成维度向量；全连接前馈网络层作用是现在单词上进行最大池化，然后生成序列维度向量；线性层的作用是建立联合嵌入空间与中间表示（Intermediate Representation）的映射。

对于语言Y的编码器，作者使用了跨语言共享模型权重，即语言X和语言Y编码器之间共享前馈层和最后一个线性层的权重。为了将不同的语言输入到共享层，作者在语言Y中的单词嵌入层之后添加一个名为AdaptLayer的线性层。

AdaptLayer的作用是改变语言Y的单词嵌入空间，使语言Y中的单词嵌入尽可能地与语言X中的单词嵌入相似。

关于视频编码器，作者使用了标准I3D模型，再加上一个将输出映射到联合嵌入空间中的线性层。
编者注：I3D模型可以理解为基于2D卷积网络的增强版，全称是Two-Stream Inflated 3D ConvNet，其论文被2017年CVPR收录。

小狗Puppy都是狗！DeepMind大招，以视觉为媒介，做无监督机器翻译，效果极好

f、g、h分别对应语言X、Y以及视频Z的嵌入函数，L定义为损失函数。

整个模型的优化目标如上公式所示，据作者介绍，通过定义上面公式，能够将训练策略扩展到多语言情况。

上述公式L(f,h)定义如下：

小狗Puppy都是狗！DeepMind大招，以视觉为媒介，做无监督机器翻译，效果极好

NCE定义如下：

小狗Puppy都是狗！DeepMind大招，以视觉为媒介，做无监督机器翻译，效果极好

通过最小化上述联合损失函数训练模型能够建立两种语言的映射关系，即对于给定的x∈X，能够找到y∈Y。

实验：“我”的模型更加稳健

在实验部分，对比当前能够达到SOTA的基于文本的翻译模型，作者发现他们的模型在翻译方面更加优秀。

在实验过程中，作者对视频的转录本进行了token化，把每种语言的65536个最常用的单词汇聚到了一个词汇库。经过预处理，作者使用了word2vec训练单语单词嵌入，并在MUVE（作者文章中提出的算法）、MUSE和VecMap模型中使用这些预训练的嵌入。

在训练时，作者从给定的数据集中抽取一个视频片段及其相应的旁白。每个训练批包括来自任一语种语言的片段，而NCE损失中的每个元素的负值是来自该批中的其他相同语言的元素。

另外，对于视频编码器，作者在Kinetics-400数据集上预训练的I3D模型进行微调，对于语言模型作者在相应的HowToW-Text数据集上预训练了单词嵌入层。

作者使用了Adam优化器，初始学习率设置为10^-3，批处理量为128，并在2个Cloud TPU上训练模型200k次迭代。

在研究能否提高单词翻译质量方面，作者将自己的模型另外两个基线进行比较。第一个基线（Random Chance）采用的是在不使用视频的情况下检索出的翻译，第二个基采用了视频检索（Video Retrieval），使用视频创建两种语言之间的并行语料库。

小狗Puppy都是狗！DeepMind大招，以视觉为媒介，做无监督机器翻译，效果极好

如上图在英语到法语翻译上，作者的模型在这两个基准上的表现明显优于基准线。另外，MUVE（第4行）比单独的基础模型（第3行）有了显著的改进（在字典和简单词基准上分别有+19.8%和+30.3%的绝对改进）

那么，模型能在多大程度上改进基于文本的单词翻译方法？作者实验了三种无监督方法和一种有监督方法，所有的方法都使用了在HowToW-Text上训练的单词嵌入方法。

小狗Puppy都是狗！DeepMind大招，以视觉为媒介，做无监督机器翻译，效果极好

如上，作者在对比英语和法语、韩语和日语之间的翻译结果之后，作者的MUVE方法最优，英韩和英日之间的翻译比基于文本的方法有着非常大的改进。

但这也表明了单纯的基于文本的方法更适合“长相”类似的语言，如英语和法语。

小狗Puppy都是狗！DeepMind大招，以视觉为媒介，做无监督机器翻译，效果极好

无监督单词翻译的稳健性如何？如上图所示，作者展示了MUVE、MUSE[10]、VecMap[4]在英法字典数据集中Recall@10的表现，并用JS距离（ jensen-shannon，上表中用~表示）测量异同度。

结果显示，当当语料库相似时（例如Wiki-En和Wiki-FR），所有的方法都表现良好。当语料库不相似的时候，MUVE明显优于其他方法，也更加稳健。

小狗Puppy都是狗！DeepMind大招，以视觉为媒介，做无监督机器翻译，效果极好

当训练数据量不同的时候，模型表现如何呢？上图展示了用原数据集体量的100%、10%、1%数据训练的结果，用 Recall@10衡量时，显然作者的方法在低资源（训练语料不足）情况下表现更好。

小狗Puppy都是狗！DeepMind大招，以视觉为媒介，做无监督机器翻译，效果极好

另外，当词汇量变化的时候，如上图所示，只有MUSE方法的性能没有下降。其他基于文本的方法都依赖于词汇量大小。

。