号称地表最强的神经机器翻译,为什么还是不尽如人意?
题图来自:视觉中国
14年到16年,机器翻译领域可以说是翻天覆地。
这期间发生的大事,是以神经网络作为基础的机器翻译,开始在全面超越此前以统计模型为基础的统计机器翻译(SMT),并快速成为在线翻译系统的主流标配。
在这场革命之后,机器翻译彻底进入了Neural Machine Translation,即NWT神经机器翻译时代。
很多人为此欢欣鼓舞。回想去年,谷歌在中英翻译系统上部署了GNWT——谷歌神经机器翻译之后,当时网上有一句广为流传的话:“作为翻译,看到这个新闻的时候,我理解了18世纪纺织工人看到蒸汽机时的忧虑与恐惧。”
怎么样?是不是感受到了深深的绝望?
但是先让咱们的小情绪平静一下。时过一年,市面上的NWT系统越来越多。虽然翻译质量确有提高,但远没到上述引文中描绘的发生“质变”的程度。这到底是为什么?
于是,我们选取了目前最有代表性的谷歌GNWT和屡获大奖的搜狗的SogouNWT,来摸索一下今天神经网络机器翻译的真实水平和进化空间。
进击的神经机器翻译
开始十分有趣的实验之前(其实并不有趣),先来简单了解一下神经机器翻译在原理上强在哪里,它的内部有哪些门类,以及为什么几年间成为了主流标配?
基于人工智能命题下的神经网络来构建机器翻译系统,是一个早在1949年就提出了的想法,但是在此后的漫长时间里都没有工程化基础,并且效率不高,一直没有成为主流。
最早的机器翻译,是根据不同语言的语法语序进行翻译,被称为规则机器翻译(RBMT),这种机器翻译应用范围非常狭窄,只能算早期技术。之后统计学崛起,统计机器翻译(SMT)成为主流。这种技术是通过平行语料进行统计分析,从而构建模型进行翻译。
谷歌翻译之所以很早就进入公众视线,就是因为他们积累了大量的语料数据,可以让翻译系统通过在语聊文档中查找对应因素来生成翻译结果。堪称SMT时代的代表。
这样做的优点是翻译效率很高,但缺点是翻译结果太过零散,很难产生正确的语法和通顺的语序。
用神经网络来进行机器翻译,首先解决的就是难以形成语句和必须依赖人工资料的问题。NMT的基本思想,是以每一个句子作为独立的神经元,从而打破基于短语的翻译障碍。并且翻译系统可以实现监督训练,不必完全依赖固定数据,这可以在专业领域等资料稀少的环节,获得更好的翻译结果 。
相较于SMT,NMT可以获得更好的语感,减少此前机器翻译的形态、句法、词序等错误。并且工程效率比较高。
从2014年,用循环神经网络(RNN)来对语言向量进行编码解码,并且使用长短期记忆网络(LSTM)来增强长句翻译能力的NMT算法,开始在所谓“跑分”上超越了SMT。随后二者差距开始拉开。
到了2016年,谷歌的GNWT开始全面部署在谷歌翻译当中,随后今年Facebook推出了基于卷积神经网络(CNN)的翻译模型,据说效率更高。而后在两个月之前,谷歌推出了完全基于注意力(attention)的翻译模型,是目前最优质的神经网络机器翻译模型。
除了这些美国巨头,中国的搜狗、百度、阿里、腾讯等公司也都部署了NWT。其中搜狗的SogouNMT上个月获得了第二届机器翻译大会(WMT 2017)“中译英”组的冠军。
至此,应该说神经网络机器翻译,这个刚刚工程化不久的技术,已经彻底成为了在线翻译领域的标配。
而问题也来了,这个技术真的有传说中那么神奇吗?
应用效果测试
其实,对不同在线翻译系统的测试网上有很多。其中有一些非常专业,大家不妨找来与本文参考。这里依旧要进行测试是为了后续推理的严谨性,并且限于篇幅,更多类似翻译测试没有展现,这里留下几个比较有代表性的例子。
考虑到要求连贯性、语句准确的在线翻译技术,其应用场景无非两种:一是海外旅游、购物为代表的实时沟通场景;二是垂直领域的专业内容翻译(毕竟日常翻译需求查单词就够了),所以这里选取了一些旅游用语和专业论文,来检测一下SogouNMT和GNMT的翻译实力。
此外,今年6月搜狗在发布翻译APP时表示SogouNMT的独门秘籍之一是翻译古诗词,所以我们也找来了古诗词与文言文来折磨两个“小家伙”。
首先是来看一句基本的旅游用语:
英译汉:What is the possibility of my getting a seat if I wait?
谷歌答案:如果我等待,我可以得到座位的可能性?
搜狗答案:如果我等待的话,我有座位的可能性是多少?
汉译英:如果我等下去的话有多大几率有座位?谷歌答案:What is the chance of having a seat if I wait?
搜狗答案:How often do I have a seat if I wait?
从中可以看出,英译汉的语序调整大体正确,搜狗对汉语的语法理解更准确。但汉译英却没有那么乐观,对于表述比较口语化的“几率”,两个系统都没有表现出对上下文的理解能力。
我们来找点论文里的长句子虐一下。
英译汉:
It seems anachronistic to talk about intertextuality in the beginning of the Twenty First Century, almost forty years since the term first appeared with Julia Kristeva’s introduction of Mikhail Bakhtin to the Western world.
谷歌答案:在二十一世纪初谈论互文性似乎不合时宜,自从Julia Kristeva将Mikhail Bakhtin引入西方世界以来,已经有四十年了。
搜狗答案:在二十世纪初开始谈论互文性似乎是不合时宜的,近四十年来,从Julia kristeva引进米哈伊尔·巴赫金到西方世界第一次出现。
汉译英:自四十年前朱丽娅·克里斯蒂娃在介绍巴赫金思想时首次将"互文性"概念引进西方世界以来,到21世纪初的今天再针对“互文性”进行讨论已经显得有些不合时宜。
谷歌答案:Since the introduction of the "intertextuality" concept for the first time in the introduction of Bakhtin's thought forty years ago, the discussion of "intertextuality" at the beginning of the 21st century has become somewhat outdated.
搜狗答案:Since Julia Christie introduced the concept of " intertextuality" to the western world for the first time 40 years ago, it has become an anachronism to discuss the " intertextuality" in the early 21st century.
从长句子的翻译上看,中英之间的语序调整还是大问题。而且语序引发的意义差别会影响整个翻译的结果。另外汉译英中,谷歌表现稍微好一点,搜狗出现了很严重的漏译。值得肯定的是,二者对专有名词的翻译都比较准确,但是人名库显然还不够大。
我们再来一点有意思的,杜甫的《石壕吏》:
暮投石壕村,有吏夜捉人。老翁逾墙走,老妇出门看。 吏呼一何怒!妇啼一何苦!
谷歌翻译版:
Twilight cast stone trench village, there are officials to catch the night.
The old man went over the wall and the old woman went out to see.
Official call an anger! Women cry one bitter!
搜狗翻译版:
Twilight lapidation the village, there are officials and night catchers.
The old man went over the wall and the old woman went out to see.
The guards cried so fiercely The old lady cried so sad.
参考巴顿·华兹生公认比较权威的译文:
At evening I put up at Stone Moat Village;
that night an official came to round up people.
The old man at the inn scaled the wall and ran away; the old woman came to open the gate.
The official, how fiercely he shouted!
The old woman, how pitiful her cries!
可以看出谷歌对古诗词的理解确实不如搜狗,比如妇啼一何苦搜狗翻译长了“old women”应该是对应上了前文。再比如“夜捉人”变成了“catch the night”似乎不如搜狗的贴边。当然了,两边对于“逾墙走”这类表达都无法准确理解,另外搜狗完全漏了石壕村。
再来一句最虐的,引自《文心雕龙·神思》:故思理为妙,神与物游。神居胸臆,而志气统其关键。
先来参考一下宇文所安的译文,再看看机器翻译会给出什么答案:
When the basic principle of thought is at its most subtle,the sprit wanders with things.The spirit dwells in the breast;intent and qi control the bolt to its gate.
谷歌的翻译:
So think for the wonderful, God and the tour. God in the chest, and the ambition of its key.
搜狗的翻译:
So thinking for the good, god and the matter swim. God lives in the heart, and the ambition is the key.
当然了,这一题纯属娱乐,太难为人了。但还是可以看出,翻译过程中根据词的表面意义直翻的现象比较严重,并且应该是在算法的加持下强行组成句子。而这种翻译模式下,漏翻现象会很严重。
问题在哪里
从以上实验似乎可以得出结论:神经网络机器翻译确实有很强的效果,尤其在短句的翻译上比较出彩,但总的来说翻译同学们的职位还是非常非常安全的。
无论英译汉还是汉译英,在翻译复杂长句、专业术语,以及诗词和古文时,现有的机器翻译依旧会展现出无力的一面。
首先,中英文之间的语序对调,也就是机器翻译中的对齐问题还是没有得到妥善解决。仅从我们进行的测试来看,似乎搜狗在英译汉时会妥帖一些,而谷歌在汉译英时稍好。但无论哪种,整体上都保持着统计机器翻译中的基本对应模式,很难根据实际预感调整。
再一个非常突出的问题,在于神经网络翻译应该会根据算法自己生成整句内容。这是因为算法把句子当做单独的序列,所以无论短语和单词是否正确,都必须生成句子。以翻译《石壕吏》和《文心雕龙》为例,翻译结果是在错误的单词翻译下翻译出更错误的内容,有些甚至有点搞笑。并且复杂翻译中,用户可能难以逆推到出错点。
并且,语位关系与动词的翻译经常出错,搜狗翻译的漏译情况似乎很多。
当然以上只是根据我们的实验得到的特征,不一定全面和准确,但似乎确实说明了神经机器翻译没有那么神,甚至有一些技术迭代后出现的新问题。
找钥匙,抢钥匙
那么如此主流的机器翻译系统,难道只能做到这一步吗?答案应该是否定的,一方面我们可以观察到学界完善神经网络机器翻译的方法在快速增长,这项技术的燃料充足;另一方面这项技术的工程化效率很高,无论谷歌、搜狗,还是Facebook、微软等机器翻译玩家,对于最新学术成果都会非常高效配置。
所以在目前来看,神经网络机器翻译未来很长时间都会处在主要位置。并且可能会短时间内不断突破。而针对上面分析到的问题,有一些解决方案可以作为比较高效的补充,也许这些会成为神经网络翻译企业接下来的重点战场。
这里强调一下,我们不希望预测算法与技术线上的改进(当然也没法预测),这里探讨的是以其他技术力量完善神经网络机器翻译的方式,说不定其中某项会成为促进真人翻译进一步失业的“钥匙”:
一、引进NMT以外的人工智能技术:巧合的是,近两年关于机器翻译的技术突破往往来自其他人工智能领域。比如注意力模型,是来自Deepmind在机器视觉领域的技术构想。主动引入其他领域的算法和模型,或许在翻译领域有神奇的效果。
二、建立机器学习使用的用户数据库,激发互动:在机器学习的原理当中,对错误样本纠错往往是最好的学习途径,但翻译上的纠错行为显然是企业难以完成的。调动用户主动纠错翻译结果,并以之建立数据库,或许是非常便捷的办法。现在的机器翻译平台当然都有纠错功能,但用户的参与热情和参与方式是个问题。
三、尝试优质训练资料下的弱监督学习:目前的NMT体系,归根结底是个有监督学习过程,很多所谓“莫名其妙”的翻译结果都来自翻译机制无法优化。尝试一些深度学习架构让翻译系统自我优化,也许是个解决方案。
四、垂直领域语料数据库&数据抽调系统:解决具体的专业领域,甚至文言文的中英互译(当然也包括英文的诗歌和文学文本),其实也没什么特别的办法,拥有强大的垂直领域数据库是硬实力,当然好的数据抽调模型会事半功倍。搜狗此前投资UHT国际,构建语言垂直领域大数据,或许就是这个目的。
神经网络机器学习,还是个标准的新生事物。业界愿意选择它只是因为它比此前的方案更优化,也更有发展潜力。绝不是因为它一出手就秒杀众生,达到了取代人类同行的地步。
翻译依旧是一个非常安全的工作,绝大多数工作其实都是——至少今天还是。
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App