百度翻译的神经网络翻译系统技术
12月21日,在百度机器翻译技术开放日上,百度自然语言处理部技术负责人吴华博士表示,基于人工智能、神经网络以及自然语言处理技术,百度早在1年多以前就率先发布了世界上首个互联网神经网络翻译系统。
机器翻译历史
1946年的时候世界第一台计算机诞生了,第二年提出了机器翻译的思想。但是机器翻译需要计算机技术、认知科学、语言学、信息论等技术的最新的成果才能做好,所以,将近30 年的时间里,机器翻译一直无重大突破。
一直到1970年提出了真正可行性的基于规则的机器翻译, 那 是模拟人翻译的过程。之后 随着 互联网的发展,语料 资源 更多, 于是 根据数据库的翻译技术诞生了 。 1991年 科学家 提出统计技术翻译技术 , 一直沿用至今。又经历了 十多年 , 基于统计的互联网翻译系统诞生 了。 在此之后又随着神经网络技术的发展,在2014年提出了神经网络的翻译技术。一年之后百度推出世界上第一个神经网络翻译系统 。 随后, 神经网络 翻译 以惊人的发展速度席卷学术界和工业界。今年9月,谷歌、微软等公司也相继发布 神经网络 翻译 系统。 谷歌 在 今年11月提出了Zero-shot的方法, 来 解决数据稀疏的问题。
神经网络翻译的优势和难点
传统的统计翻译不管是基于短语还是句法的,这种方法还是在局部解码,没有看全句最优。相比之下,神经网络翻译的好处是先看整个句子的意思,然后再翻译。这个过程就会表现出来好像理解了一句话的意思,所以使得它在选择翻译词的时候,更加符合这个句子的语意。但神经网络翻译需要大量的双语语料,以便进行数据训练,获得优异的效果。在中文和英文之间翻译的时候,有很多现有的双语语料,但中文到日文、韩语、泰语等等翻译的时候,很少有大规模的语料。所以中译英、英译中,神经网络翻译占到百度翻译的90%以上,而小语种的语料没有那么多,在翻译时还是多数使用统计翻译。为了解决这个问题,百度提出了一种多语言翻译的技术,解决了小语种翻译的数据吸收的问题。接着百度在模型集方面也做出了多项创新,以便充分利用单语语料。
值得注意的是,神经网络翻译目前还只是高级一点的模式识别技术,没有真正解决语义问题。语义理解是机器翻译领域接下来要解决的重要问题。