面对百度仍缺“本土”气质,谷歌翻译重返路有多长?
在3月29日,谷歌悄然在新版谷歌翻译App中增加了对“中国区用户的优化”,这也意味着谷歌翻译再次回到内地市场。
不过或许令不少中国用户失望的是,在阔别中国市场7年之后,谷歌翻译在产品体验上与国内这一领域的领头羊百度翻译有了较大的差距。
重返中国的谷歌翻译才刚刚重新开始
面对庞大的中国市场,谷歌翻译自然也是不愿意放过。根据App Annie数据,自从2016年第三季度开始,中国就已经超过美国,成为全球iOS应用商店收入最高的市场。中国移动互联网市场不仅仅在绝对数量上远超美国,也在消费能力超过美国,成为名副其实的全球第一大互联网经济市场。
但谷歌想在中国市场获得其在美国同样的领先优势并不容易,由于缺少大量、优质的语料训练,谷歌翻译在中英文互译的实际效果中和深耕中国市场的,被认为是最懂中文的百度短时间内还无法比拟。
可以想见,为了提高翻译的效果,谷歌此番低调开放内地市场的翻译App,第一阶段很大程度上是出于积累更多中文语料数据的目的,通过实时实景翻译等比较酷的玩法吸引用户更多的使用。
不过考虑到翻译本身的严肃性,在细节上略逊一筹的谷歌面对百度翻译的竞争依然缺少一定的底气。尤其是谷歌离开中国市场的这几年间,深度学习被应用到机器翻译领域,而机器学习的基础则是足够庞大的数据量。
在这方面,作为中文搜索市场份额最大的搜索引擎百度,自然是更具优势。从另一个角度来看,谷歌翻译此番重返中国市场本身也承载着为谷歌积累更多中文数据的重要任务。
机器翻译,与搜索一脉相承
在前不久百度内部的结构调整中,百度副总裁王海峰出任AIG总负责人,而在此之前作为百度NLP部门的负责人,百度翻译一直是出身机器翻译技术研发背景的王海峰最为重视的业务之一。王海峰本人则是全球机器翻译技术大牛,是自然语言处理领域最著名的国际学术组织ACL50多年来的首位华人主席,和目前最年轻的ACL Fellow。
2016年,百度机器翻译获得国家科学技术进步二等奖,机器翻译项目负责人王海峰则作为第一获奖人接受了这一奖项。作为国家最权威的科技类奖项,这一奖项在此前数年中曾先后颁发给过“载人航天”“探月工程”“青藏铁路”等技术团队。由此可见百度在中文翻译领域的技术积累,和产品的实际影响力。
国际机器翻译学会主席、《机器翻译》期刊主编Andy Way曾对其进行高度评价:“与谷歌和其他互联网翻译服务相比,百度的翻译质量,尤其是在中文相关翻译方向上具有明显优势。”
这样的优势背后则是百度自身的技术和数据积累,机器翻译天然与自然语言处理技术相关联,而自然语言技术天然又是搜索的基础,这也使得百度在中文自然语言处理技术方面的优势可以直接应用在百度翻译上。
从语言学角度来看,中文和英文是两种完全不同的语言。在王海峰看来“中文是孤立语,文本的词与词之间没有空格,主要通过词序来表示语法关系。这些因素加大了中文在词汇、句法和语义层面消除歧义的难度。相比中文,现代语言学的概念与语法更适用于英文。”
这样巨大的不同也就带来了中英文在自然语言处理技术上需要不同的积累和训练语料,从而使得在谷歌离开的7年时间中,百度在其中文自然语言处理技术上已然甩开谷歌。
翻译只是一部分,百度静待人工智能革命到来
对于百度而言,机器翻译同样也只是其人工智能布局的一部分,自从百度2013年成立IDL研究院以来,百度对人工智能的重视程度不断提高,在最近一段时间,李彦宏更是直称“百度就是一家人工智能公司”。
而在百度总裁张亚勤看来,百度“正在人工智能革命的前夕,等待着黎明到来”,不过相比于2013年时,如今的百度在人工智能上的重点正在从学术理论转向实际的工程化应用。
作为百度副总裁,王海峰本身就是工程化的高手,如今他成为了百度AIG的负责人。除了搜索,PK谷歌翻译的百度翻译同样也是百度将人工智能技术落地的重要场景。而百度集团总裁兼首席运营官陆奇直接主抓的无人驾驶和度秘更是处在工程化的第一线,属于直接toC的人工智能产品
在完成了最初的技术和人才储备之后,近年来,百度在新技术应用到实际场景中的速度不断提升。以翻译产品为例,百度在2015年就应用了基于神经网络的翻译方法(NMT),是世界上最早运用这一技术的主流在线翻译产品,而谷歌则是在2016年才向外界介绍了其神经网络机器翻译系统的进展,仍为实际产品化。
对于百度而言,NMT技术的基础则是百度在过去几年积累的相关技术。早在2015年就发表了论文《Multi-Task Learning for Multiple Language Translation》,探讨用 NMT 技术解决多语言翻译及语料稀疏的问题。这篇论文引发了业内研究人员的关注,并被ACL2016 的 NMT Tutorial 列为研究方向。Google 团队也同样是在这一论文的基础上进行了进一步的扩展研究。
由此可见,努力将人工智能推向工程化落地的百度正在享受到较早布局人工智能带来的巨大红利。虽然国内的对手阿里和腾讯也摩拳擦掌,前者由马云亲自在阿里巴巴技术大会上宣布启动了代号为NASA的行动计划,紧锣密鼓地招募AI科学家,且“预算不设上限”;后者则已经有围棋AI“绝艺”横扫棋坛高手的牛刀小试。
但无论是技术基因还是人员、技术储备上,百度在这场AI较量中仍然处于优势,如果我们重新再翻出移动互联网初期的船票论,或许百度正在成为那个最容易拿到第一章船票的互联网公司。