百度副总裁王海峰:机器翻译实现大规模产业化
出国旅行途中,依靠手机上的翻译APP就能与当地人无障碍沟通;海淘购物时,点击“将网页翻译为中文”便可以轻松了解商品信息……都说语言是人类交际的重要工具,在全球化的时代背景下,解决语言障碍,并为人们生活带来各种便利的互联网机器翻译会成为下一波产业浪潮吗?
4月19日下午,在第十届中国电子信息技术年会互联网机器翻译论坛上,百度技术副总裁王海峰在现场演讲中表示,通过在理论、技术、应用上的创新和突破,百度机器翻译已经实现了大规模产业化。
破除语言壁垒是互联网时代的用户“刚需”
早在计算机诞生之初的1947年,科学家就提出了机器翻译的设想,美国、欧盟、日本和我国都投入巨资开展这一技术的研发。近年来,随着多语言网页信息的快速膨胀和互联网网民数量的激增,网民渗透率达到73%以上的翻译用户也在同步增长,破除语言壁垒实现无障碍的信息获取和交流,已经成为广大网民的“刚需”,互联网机器翻译也越来越得到各国政府和产业界的重视。
“搜索的本质就是连接人与信息、人与服务。在寻找信息和服务的过程中,人们会有用其它语言表达需求的时候,也会有看其它语言结果的需求。为了更好地把人和多语言的信息和服务连接起来,我们需要翻译。“ 王海峰表示,百度翻译已经支持16种语言、186个翻译方向,涵盖了包括中文、英文、日语、韩语、法语、俄语等主要语种,每天响应上亿次的用户请求。
为了进一步满足用户需要,百度翻译先后推出了语音翻译、实物翻译、涂抹翻译、离线翻译等亮点功能。将强大的机器翻译技术和语音识别、语音合成、图像识别、文字识别等完美结合,取得了绝佳的用户体验。
互联网大数据驱动机器翻译技术新突破
当然,机器翻译的发展并非一帆风顺。“第二代机器翻译之所以遇到瓶颈,在于其难以突破语言理解的技术屏障”,中国工程院院士倪光南在现场演讲中表示,“大数据和互联网给出了一个新的工具和解决办法”,通过发挥大数据的威力实现了技术突破,“我相信我们在这些领域做好,可以通过机器翻译促进机器智能的发展。”
“百度翻译在基于大数据的翻译模型、翻译知识获取、枢轴语言翻译等方面取得了重大技术突破”,王海峰指出,在互联网大数据的翻译模型指导下,无论是跨语言聊天、还是阅读外语专业文献,百度翻译云平台都可以与相应算法充分融合,实时响应每天来自全球超过上亿次复杂多样的翻译请求;基于在互联网大数据方面的多年积累,研发出高质量翻译知识获取技术,突破了传统翻译在知识获取方面的小规模、高成本瓶颈,使机器翻译的知识准确率超过90%。除此之外,这个项目成果还在翻译消歧、调序、语种覆盖等难题上提出创新的解决方案,让基于深度语义、枢轴语言等的翻译技术持续提升机器翻译的准确率和翻译更多语言的可能。
倪光南院士也对百度机器翻译技术的给出了极高评价,倪院士把大数据比作“第四种科学范式“,称其为”一个强大的工具”。“正是由于处于大数据时代,我们才能将现在的机器翻译提到一个全新的高度,百度在这方面在世界当中占有重要的地位。”
机器翻译引领下一波产业浪潮
“目前很多手机,比如华为手机和中兴手机等等都预装了百度翻译”,王海峰表示,通过免费开放API,该项技术成果支持了包括华为、金山等企业的超过7000个第三方应用,助力大企业的国际化,降低了中小企业的创业创新的门槛,带动了相关产业的繁荣与发展。
值得一提的是,在“一带一路”的国家战略背景下,机器翻译也有着非凡的意义。清华大学计算机系党委书记、教授、博导孙茂松在论坛上指出,“一带一路”涉及俄罗斯、印度等国家超过六十个,人口逼近三四十亿,想要打造政治互信、经济融合、文化包容的利益共同体,语言不通将会造成很大障碍,而机器翻译却可在其中发挥举足轻重的作用。
“从国家战略角度看,机器翻译是重要的国家软实力之一,从老百姓角度看,包括做生意、旅游等,机器翻译都是不可缺少的工具,它的社会、经济效益是不可低估的。”孙教授进一步表示。
谈到机器翻译产业的未来发展,王海峰认为,机器翻译技术正在逐步改变着我们的工作、生活方式甚至外贸外交。也许三五年之后,看似“高大上”的机器翻译会融入大家日常生活的方方面面,而机器翻译产业浪潮也必将达到一个新的高度。