谷歌神经网络翻译是如何炼成的?
作者 小羿
今天上午,由中国互联网协会主办的2017中国互联网大会在北京北京举行。会上, 谷歌 翻译研发科学家高勤发表了《利用机器学习消除语言障碍》 的演讲,阐述了谷歌神经网络翻译背后的技术以及未来研发的方向。
全球仅20%的人能看懂英文,谷歌翻译支持100种语言翻译
据悉,谷歌翻译在2006年就已经推出,经过11年的发展已经支持超过100种语言的翻译,覆盖世界99%的网民。据高勤透露,谷歌翻译每天提供超过10亿次的翻译,月度活跃用户超过10亿人次,其中95%来自于美国以外地区。
而谷歌翻译质量的大幅提升则得益于神经网络翻译的发展。据悉,谷歌的神经网络翻译从2015年9月研发,13个月后上线。谷歌的测试显示,神经网络机器翻译和非专业人工翻译已经相当接近,对于英中、中英翻译也取得最大的提升。
探索多语言模型:疑似发现多语言通用语!
然而,从一个实验室研究结果到服务10亿人的产品,其中仍有很长的路要走。
目前来看,因为语言的不同,谷歌翻译仍需要对200个模型进行训练与维护,这仍然是极为繁重的任务。因此,谷歌翻译目前已将目光投向多语言模型。所谓多语言模型是指用同一套神经网络学习多种语言的互相翻译。如,可以将英语、西班牙语、韩语放在同一个翻译模型中进行翻译。高勤称,实现多语言模型的机器翻译其方法可以非常简单,只需要将我们想要翻译的目标语言代码通过特殊符号形式告诉神经网络,神经网络就可以处理多种语言的翻译。如,要翻译到日语,只需要在原语言前加入2ja+简单符号。通过这样处理的多语言简单符号,很多情况下其性能超过单语言情况。
高勤同时指出,多语言模型可以非常好地处理零数据翻译,无需通过英语中转就可以实现两者非英语语言的翻译,这为未来构建统一翻译模型提供了可能性。
最新研究显示,谷歌翻译团队目前对多语言模型、以及在神经网络内部对不同语言中意义相近的句子向量表示进行多维空间投影,发现意义相近的句子投影到相邻区域,这表明神经网络内部对多种语言的表示具有一定的普适性。高勤表示,“这是否代表我们找到了一种能够代表多种语言的通用语呢?现在还不能确定。我认为还需要进一步研究。”
谷歌翻译下一步:探究新的模型结构,追求性能极限
目前,谷歌已经推出神经网络机器翻译模型,其API接口已提供开发者下载使用。高勤称,下一步我们将继续致力于改进数字、日期、姓名、品牌以及不常见短语翻译,同时进一步研究新的模型结构与训练方法。
高勤称,过去一年的研究,我们对神经网络机器翻译的认识仍然非常肤浅。我们认为神经网络机器翻译仅仅是初露锋芒,并没有达到性能的极限。(小羿)