人工智能助力下,“世界语”真的有可能诞生吗?
题记:12月21日,在“百度机器翻译技术开放日”上,百度技术委员会联席主席、自然语言处理部技术负责人吴华博士向到场嘉宾介绍了百度机器翻译的最新进展。百度在1年多前发布的,基于领先的人工智能、神经网络及自然语言处理技术的世界上首个互联网NMT系统,可谓引领机器翻译进入神经网络翻译时代。这一成果刷新了业界对于机器翻译潜能的估值,也掀起了人们对于全球沟通介质的重新审度。
1887年,处于维多利亚时代尾声的世界,第一次工业革命带来的世界历史上的第一次全球化正进入高潮。尽管在大多数地区,这种全球化伴随着血腥的战争与殖民,但全球化正如一股不可抵挡的洪流席卷着世界的每一个角落。
在这一年,波兰籍犹太人柴门霍夫博士创造了一种新的语言,并希望其也能随着全球化浪潮而传播,消除国际交往中的语言障碍,这门语言就是“世界语”。
人类无缝沟通曾经的希望
这个毫无根基的语言借助历史的大趋势迅速传播,甚至在民国初年传入中国之后,被蔡元培、鲁迅、巴金等人推广传播,进入数十所大学的课程列表。
简单易学是这种语言最大的特点,有人曾表示学会世界语只需要150小时,而说好世界语也不过需要1500小时,是最容易学习的外语之一。但这种语言本身也存在很多问题,作为一种新生语言,全球只有2000人把世界语作为母语,这导致了世界语在传播上缺少足够的根基,更多的是被很多人当做兴趣来学习,而非一种实用性的语种。加之目前掌握世界语的人分布过于分散,使得这一语言很难被人们频繁使用和传播。
回顾世界语的历史,从风靡一时到只有2000人作为母语的没落,这一语言可以说是伴随着全球化的进程起起伏伏,尽管如今鲜有人知晓,但世界语无疑是文化融合的先驱。
而时至今日,尽管以英美为代表国家的全球化进程将英语推向世界,成为目前最为通用的交流语言,但英语也依然没有实现世界语当初的理想――消除国际交往中的语言障碍,因为尚有70%的人不会说英语,在30%会说英语的人中,还存在大量非英语母语国家的人不能熟练使用英语。
古老但拥有新希望的机器翻译
有语言沟通的障碍,自然就有翻译,而如今翻译作为一种古老的职业也正在面临一种新的沟通辅助形式的冲击,那就是机器自动翻译。不同于世界语,尽管目的同样是消除语言障碍,但机器自动翻译并不会改变人们原有的母语,只是在人与人之间搭建一个沟通桥梁。
但机器翻译并不是一个新鲜词,早在1949年,美国数学家Warren Weaver就在其发表的《翻译备忘录》中正式提出了机器翻译的思想。而在5年之后的1954年,美国乔治敦大学则在IBM公司的协同下第一次进行了机器翻译的试验,拉开了机器翻译实际研究和应用的序幕。可以说机器翻译同样也有着70年的悠久历史,那我们为什么会说机器翻译正在完成世界语当初韦静的事业――消除语言沟通障碍呢?答案是人工智能的应用。
在过去,由于机器自动翻译结果在准确性和通顺性上的问题,很多时候这种翻译结果更多的只是能让用户知道大概意思,很难实现真正的“信达雅”。由人类亲手创造的语言变化极其灵活,哪怕同一单词,在不同地域,文化,语境甚至情绪里的意义也迥然不同。但随着人工智能的应用,机器自动翻译与人工翻译的差距正在缩小。
以目前在人工智能+翻译上走的比较远的百度为例,百度翻译所采用的技术是基于神经网络的机器翻译(Neural Machine Translation,简称NMT)技术,这一技术的使用让机器翻译在多场景、长对话中的应用表现得更出色。
而在百度采用NMT技术之前,基于短语的统计机器翻译(SMT)方法是业界主流,这一模型最早成型于2003年,当时爱丁堡大学的Koehn提出短语翻译模型,加之同时期Franz Och提出的对数线性模型及其权重训练方法,使得机器翻译较此前有了极大的进步,并一直沿用至今。
在基于短语的统计机器翻译(SMT)时代,最大的问题就是翻译内容让人感觉像是多个短语或单词拼凑,而非一气呵成的一句话,以百度为代表的互联网公司开始应用基于神经网络算法的NMT技术,目的就是为了解决这个问题,让机器模拟人对语义的理解,从而给出通顺的语句翻译。比如百度在2016年5月推出的自动写诗功能,就是利用了基于深度神经网络的翻译模型,可以将诗歌韵律、平仄规则、语义完整性甚至意境都考虑进去,得出的结果也自然不是那些平常会让我们哭笑不得的“直译”。
可以说,百度在2015年采用NMT技术取代传统的SMT是开创了业界先河,做了第一个吃螃蟹的人,效果也显而易见,目前百度可以支持全球28种语言、756个方向的相互翻译,并成功应用到拍照翻译、跨境、出境游电商等多个场景。而代表国外先进翻译技术的谷歌在2016年3月才宣布“谷歌翻译将会利用深度学习为用户提供服务”。
机器翻译会带来新的“世界语”么?
随着机器翻译的发展,关于机器翻译是否可以带来新型世界语的讨论也在国外开始出现。不过这种可能性或许并不存在。因为机器翻译本身的价值并不是创造一种新的语言,而只是消除了原有不同语言之间的沟通障碍,起到弥缝的价值。
事实上,如今的机器翻译能够在越来越多的场景中应用,未来的人类似乎也不需要一种通用语言,而是可以自由的使用本民族的母语。事实上,但凡涉及多语言应用场景,无论在线教育,互联网金融,还是传媒和跨境交易,机器翻译都可自如嫁接。
比如在出境游场景下,百度翻译推出了一个新功能――拍照可以翻译说明书、路牌、菜单,这一功能解决了用户出境游时语言不通,需要一个个单词或短语查询翻译的痛点,只需一拍照就直接给出翻译结果。
尽管此前微信和有道词典等产品也推出过拍照翻译功能,但更多还是针对单词和短语的翻译,在说明书、旅游指南等长内容翻译上表现一般,甚至是无法实现翻译,百度基于NMT的新翻译技术则并不存在这一问题。
我们可以预见到的是,随着语音识别和语义理解技术的提升,机器翻译取代部分同声传译的功能,实现实时的对话翻译并不是不可能的事情。
机器翻译的出现使得地球上任何一个角落的人享有平等、便捷、自由信息和服务成为可能,可以说,随着技术的进步,机器翻译正在实现当初世界语的愿景――全球无障碍沟通。