百度翻译的神经网络翻译系统技术

搜狐科技 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

12月21日，在百度机器翻译技术开放日上，百度自然语言处理部技术负责人吴华博士表示，基于人工智能、神经网络以及自然语言处理技术，百度早在1年多以前就率先发布了世界上首个互联网神经网络翻译系统。

　　 机器翻译历史

1946年的时候世界第一台计算机诞生了，第二年提出了机器翻译的思想。但是机器翻译需要计算机技术、认知科学、语言学、信息论等技术的最新的成果才能做好，所以，将近30 年的时间里，机器翻译一直无重大突破。

　　一直到1970年提出了真正可行性的基于规则的机器翻译，那是模拟人翻译的过程。之后随着互联网的发展，语料资源更多，于是根据数据库的翻译技术诞生了。 1991年科学家提出统计技术翻译技术，一直沿用至今。又经历了十多年，基于统计的互联网翻译系统诞生了。在此之后又随着神经网络技术的发展，在2014年提出了神经网络的翻译技术。一年之后百度推出世界上第一个神经网络翻译系统。随后，神经网络翻译以惊人的发展速度席卷学术界和工业界。今年9月，谷歌、微软等公司也相继发布神经网络翻译系统。谷歌在今年11月提出了Zero-shot的方法，来解决数据稀疏的问题。

　　 神经网络翻译的优势和难点

传统的统计翻译不管是基于短语还是句法的，这种方法还是在局部解码，没有看全句最优。相比之下，神经网络翻译的好处是先看整个句子的意思，然后再翻译。这个过程就会表现出来好像理解了一句话的意思，所以使得它在选择翻译词的时候，更加符合这个句子的语意。但神经网络翻译需要大量的双语语料，以便进行数据训练，获得优异的效果。在中文和英文之间翻译的时候，有很多现有的双语语料，但中文到日文、韩语、泰语等等翻译的时候，很少有大规模的语料。所以中译英、英译中，神经网络翻译占到百度翻译的90%以上，而小语种的语料没有那么多，在翻译时还是多数使用统计翻译。为了解决这个问题，百度提出了一种多语言翻译的技术，解决了小语种翻译的数据吸收的问题。接着百度在模型集方面也做出了多项创新，以便充分利用单语语料。

值得注意的是，神经网络翻译目前还只是高级一点的模式识别技术，没有真正解决语义问题。语义理解是机器翻译领域接下来要解决的重要问题。