Google翻译:人工智能的觉醒
今年十一月,东京大学人机互动学特聘教授Jun Rekimoto在社交媒体上得知Google翻译的水平突然突飞猛进。Rekimoto随即从《伟大的盖茨比》里抽了几句话,分别比对了1957年Takashi Nozaki的译本、村上春树的最近译本和Google翻译结果。Rekimoto表示,村上春树的翻译行文非常优雅流畅,不过很明显是村上独有的风格。相比之下,Google的翻译更直白易懂。
Rekimoto还尝试了Google翻译的日译英。他自行翻译了海明威的《乞力马扎罗山的雪》的第一段,让Google翻译从日文翻译成英文。猜猜以下两段哪个是原著:
1.Kilimanjaro is a snow-covered mountain 19,710 feet high, and is said to be the highest mountain in Africa. Its western summit is called the Masai “Ngaje Ngai,” the House of God. Close to the western summit there is the dried and frozen carcass of a leopard. No one has explained what the leopard was seeking at that altitude.
2.Kilimanjaro is a mountain of 19,710 feet covered with snow and is said to be the highest mountain in Africa. The summit of the west is called “Ngaje Ngai” in Masai, the house of God. Near the top of the west there is a dry and frozen dead body of leopard. No one has ever explained what leopard wanted at that altitude.
没有海明威的文风大概是No. 2唯一露出的马脚了。这两者之间差距如此之小,Rekimoto震惊不已。要知道在此24小时前,Google给出的翻译还是这样的:
Rekimoto在Twitter上分享了他的发现,短短几小时内几千人都尝试了Google翻译。第二天早上,Google翻译在日本Twitter上已经成为了最热话题,超过了偶像组织和各种动漫。所有人都大吃一惊:Google翻译什么时候这么牛逼了!
4天后,Google在伦敦举行了一场发布会。到场的来宾每人都获得了Translate牌幸运饼干,饼干里的纸条上一面写着一些外文单词(我的是挪威语),另一面是下载Translate应用的邀请。桌子上摆放着甜甜圈和饮料,牌子上用各种语言写着点心的口味。不久后,来宾就都被邀请到了演讲厅中。
Google的CEO Sundar Pichai
伦敦市长简单地发表了开幕致辞,随后就介绍了Google的CEO Sundar Pichai。Pichai当时也为Google新办公室建成的开幕仪式来到了伦敦。Google最新分部设立在伦敦国王十字区(King’s Cross),该分部的建成将成为Google转型为“A.I.(人工智能)第一”初期阶段的里程碑。外界众说纷纭,不过不少人猜测,Google 公司的产品今后将不再是基于传统电脑编程,而是机器学习。
5年前建立的Google Brain部门就是基于这个思想:人工“神经网络”将具备学习能力,甚至能像人类一样。这个想法倒不算新颖,早在1940年现代电脑诞生时就有人提出了这个观点。但多年来,电脑科学家都认为这个想法其实就是个传说。自从2011年Google Brain项目发起以来,公司已经证明人工智能可以解决几十年来传统计算机都无能为力的各种难题。语音识别一直到Google Brain着手之前准确度一直都不如人意;自从Google Brain上手,Google手机系统Android上的语音识别准确度可以和人类媲美。图片识别也一样。一年前,Google Brain抱着颠覆整个消费电子市场的勇气和决心开始了这项挑战,今晚公司将发布他们振奋人心的结果。
Google翻译自2006年发布以来就一直是Google最可靠和最普及的资产。它每月用户就超出5亿名,平均每天都要翻译1400亿个单词。Google翻译除了手机应用之外也是和Gmail、Chrome和其他Google集成服务包中的性能之一,从来没出过岔子。知道最近难民危机问题发生,Pichai才出面解释了Google翻译在地理政治方面的重要性——在难民问题发生的那段时间里,Google翻译的阿拉伯语与德语互译的使用率骤然上升了5倍。Google翻译团队一直以来都在不断添加新语言和功能,但近4年来翻译质量的改善速度却明显下降了。
但如今有了人工智能,一切都不一样了。从两周前开始,美国、欧洲和亚洲区域的Google翻译系统正式改为AI驱动,覆盖语言有英语、西班牙语、法语、葡萄牙语、德语、汉语、日语、韩语和土耳其语。让Google的工程师们惊喜的是,这次升级仅仅用了9个月就完成了。新的AI系统展示了惊人的处理能力,24小时里改善的程度简直超过了旧系统学习一生能达到的级别。
一个月前我与Pichai见面时,他曾告诉我,Google翻译之所以存在,是因为不是所有人都能像Robert Oppenheimer一样只为读Bhagavad Gita的原著而去学习梵语。他身后的幻灯片上有一句Borges的名言:“ Uno no es lo que es por lo que escribe, sino por lo que ha leído .”
Pichai把这句话输进了旧版的Google翻译,得到的结果是这样的:“One is not what is for what he writes, but for what he has read.”——人不是为了他写的什么东西,而是为了他读了什么。
他又把同一句话输进了新的翻译系统:“You are not what you write, but what you have read.”——你是谁并不取决于你写了什么,而是你读了什么。
也就是说,Google翻译的新系统是世界上第一台真正学会“阅读”的机器。
如今整个科技业界都开始重视AI,但如此正式采取行动的,Google还是第一家。过去4年来,Google、Facebook、Apple、Amazon、Microsoft以及中国百度这6家公司对大学里AI方面的人才尤其重视。这些公司给予的充足的资源和自由选拔出了高校里最顶尖的一批毕业生。Facebook CEO Mark Zuckerberg会亲自接待公司看中的优秀毕业生,这些新人中7位数的起薪也不是没有过。这些巨头之所以会如此渴望人才是因为人工智能的创新将会彻底改写整个编程平台。
虽说“人工智能”这个词看似好懂,但其实一直都有争议。倘若你穿越回1970年走在大街上掏出智能手机打开Google Maps,周围人会觉得Google Maps就是人工智能。某种意义上,Google Maps确实是人工智能,因为任何人用地图能做到的事,它也能。比如它能引导你从酒店走到机场,而且比人还快且精准。而一些人类做不到的事它也可以做到,例如预测路况、在你走错路时重新导航。
但放到今天,没人会说Google Maps是人工智能。我们相信人工智能有别于普通工具和机械。一旦我们能把某个任务自动化,我们就能把相关技术也机械化。从这个意义上来说,Google Maps似乎不过是个机器人:接受指令,然后高效地执行。所以说,我们离真正的“人工智能”这个目标的距离也在不断缩减。
Pichai提出了现有的人工智能和“强人工智能” (artificial general intelligence)之间是有区别的。强人工智能不仅仅会服从明确的指令,还能读取和理解暗示。它将成为非常普及的工具,适用于各个行业和场景。Pichai表示Google的未来就取决于这样的一种工具。以现有的人工智能,你只能对Google Maps说:“我想从酒店去机场。”但有了强人工智能,你就能对它说“我要去机场,不过半路要给我外甥买个礼物。”未来的Google Maps或许还知道你外甥的同学们喜欢什么样的礼物,以此预测他会喜欢的礼物,然后给你导航礼品店。如果人工智能机器可以从过往的数据中辨别隐藏的生活规律,它将能在我们自己都还未意识到之前就预测出我们的需求。
如今像Apple的Siri、Amazon的Echo等人工智能助手也都是机器学习的产物,这些公司研发的目的也与Google相似。2014年,Google收购的DeepMind公司开发了Alpha Go成功打败了李世石,这个成就比预计的要早了10年。
在1950年发表的一篇文章中,艾伦·图灵提出了一项用于强人工智能的测试:如果计算机能在5分钟的文字交流后成功骗过人类交谈者、被认为是人类,它就可以算作强人工智能。一旦机器可以学会人类的语气,那么迟早有一天它们就能“理解”人类,和人类流利对话。Google Brain的团队成员相信,强人工智能在不久的未来将会成为万能的电子助理。
接下来,我们会讲述Google的研究员和工程师们如何在这块领域做到了如此的突破。这是个不同寻常的故事,它颠覆了我们对硅谷以往的认知。事实上Google Translate 转型成人工智能系统一共要分为三个故事,第一个是技术方面的,第二个是公司方面的,第三个是有关创意进化的。
第一部分:学习机器
Google Brain领导人Jeff Dean是一名从1999年就在Google工作的老员工。从2014年来,他公司所有的核心软件系统都要经他之手。作为一个人人爱戴的 “老干部”,Google员工们最爱的梗之一是“Jeff Dean相关事实”,例如:“Jeff Dean的银行卡密码是圆周率π的末尾四位数”、“公司阶级系统最高就是10级,然而Jeff升到了11级”等等。
Google 工程师兼Google Brain领导人Jeff Dean
2011年,Dean和公司顾问Andrew Ng偶遇时,Ng向他提到了Project Marvin。Andrew Ng同时也是斯坦福计算机科学教授。Project Marvin旨在打造模拟人类大脑的数字网络,Dean自己在大学时代也做过类似的研究。Ng告诉Dean,Project Marvin已经被Google X 实验室承保,而且已获得了不错的成绩。
每个 Google员工都要除核心工作外用上班时间的20%来做他们自己选择的项目;Dean决定把他20%的时间贡献给Project Marvin。很快,他和Ng决定让具备神经科学背景的同时Greg Corrado也加入他们的团队。那年暮春,Ng带来了他最得意的毕业生Quoc Le作为该项目的首位实习生。从那时起,Project Marvin有了另一个名字:Google Brain。
自从“人工智能“这个词诞生以来,大部分科学家就认为创造A.I.最好的方式就是写一段庞大且全面的程序,包含了各种逻辑推理和海量的知识。如果你想让人工智能把英语翻译成日语,你就要在程序里写入英语的一切语法、整本牛津字典,还有日语的所有语法和词汇。这种观点叫“符号A.I.”或者“老式A.I.”。
这种老式方法有两个主要问题。其一,这么做太费时;第二,这样的人工智能只有在定义和规则非常清晰的情况下才能工作,例如数学和下棋。但翻译方面这种方法完全行不通,因为语言是非常多变的。
早在1961年就有人提出,如果你能让计算机模拟数学和下棋等高阶认知能力,那么你迟早能让它拥有“意识”。
但事实却远没有那么顺利。1980年,卡耐基梅龙大学的一位机器人科学家指出,让计算机做成人的工作很简单,但它们却做不到1岁小孩能做的事——例如握住圆球、辨认猫等。到了1990年代,虽然电脑象棋越来越先进,但我们离强人工智能依然差得太远。
另一种对A.I.的观点是计算机会从数据学习上升到规则,而非从上到下。这种观点早在1940年代就有;当时提出这个理论的研究人员相信,自动智能最好的模型还是人类的大脑。大脑是由大量的小单位(神经元)组成,这些单元可以互相传送电荷。最重要的是,这些小单元之间连接的次数比单元的个数要多。这种结构给了大脑强大的适应能力。我们的大脑可以在信息缺乏的情况下正常工作;即便遭受了严重损害,它也不会彻底失去控制,它还可以非常有效地存储大量知识,在分离出清晰的规律的同时,又保留其他非核心信息来处理不明确的情况。
早在1943年,就有人通过实验证明简单的人工神经元排列确实可以完成基本逻辑功能。人工神经网络也可以像我们一样学习。一个人根据他的不断摸索、实验和失败,某对神经单元之间的联系会变强或是变弱;人工神经网络通过人为改动神经单元之间的数据关系,也可以达到类似的效果。你无须把固定的规律写到程序里;它可以从收集到的数据自行改变回路。
理想的人工智能应该是会进化的。只要你给它感性知觉、动作控制等非常基础的能力,它就能自动进化,学会更高级的功能。
Google Brain是首个投资了这种想法的商业机构。Dean、Corrado和Ng起初只是在工作之余做些相关实验,但他们的成果却进步飞速。他们从最新的理论获得构架灵感,逐渐引入了海量的数据和庞大的网络计算结构。
“动物在进化时最大的突破就是眼睛,而如今电脑也有了。我们可以让它们理解已有的图片,让它们来锻炼‘视觉’。今后它们将能在未知的环境里处理复杂的问题。这种能力现在阶段看来可能还非常初始,但却能应用范围却极广。”Dean说道。
Geoffrey Hinton,是他为Google Translate的神经网络打好了基础
Google Brain在实验的头一年里就达到了1岁小孩的智力水平,这个成就是非常喜人的。Brain的语音识别团队把部分老系统用新系统取而代之,结果进步之大简直超过了老系统在20年里所能做到的。Brain系统的物体辨认能力也在短短1年内有了惊人的飞跃,不过这主要是因为Google终于愿意把大量的资源投入到这个项目中。
Google Brain能有今天,很大程度上要归功于深度学习专家Geoffrey Hinton。在Brain诞生的第二年,Geoffrey加入了该团队,顶替离职了的Andrew Ng(Andrew Ng现在为百度效力,带领着1300多人的A.I.团队)。当时Hinton想从多伦多大学离职3个月,所以他是以实习生的身份加入Brain团队的。结果在实习生培训中,一群25岁左右的年轻人窃窃私语:“那位老人家是来干嘛的?”
“在我排队等午饭的时候,人群中有人大叫:‘Hinton教授!我还听过您的课呢!您为什么会在这里?’一切终于都正常了。”Hinton说道。
几个月之后,Hinton和他的两位学生在ImageNet举办的大型图像识别比赛上展现了惊人的成果。在这场比赛中,电脑不仅被要求辨识出猴子,还要辨别出蛛猿和吼猴,以及不同品种的猫。Google立刻向Hinton和他的学生发出了邀请,对方也欣然接受了。“我还以为他们是对我们的作品感兴趣,没想到是真的对我们三个人有兴趣。”Hinton说道。
Geoffrey Hinton的家族在科技界颇有名望。他的高曾祖父George Boole提出的符号逻辑成为了现代计算机的基础,另一位高曾祖父是著名外科手术医生;他父亲是一位爱冒险的昆虫学家。Hinton曾在剑桥和爱丁堡大学就学,之后在卡耐基梅龙和多伦多教学。加拿大政府对他的研究给予了大量的资金。
Hinton从1960年代还在剑桥读书的时候起就在研究神经网络。在计算机界,Hinton就是智能的始祖。不过当时没人相信Hinton的神经网络理论。这主要是因为大众对Frank Rosenblatt引领的人工神经网络研究项目the Perception期望太高,但这个项目却并没能成功。据纽约时报报道,美国海军曾希望the Perception“能走,能说话,能看,能写,能复制自己,能意识到自己的存在”,但最后无论哪一项它都没有完成。美国人工智能先驱Marvin Minsky也曾研究过神经网络,但最后他厌倦了Rosenblatt吹的牛逼,最后他在和M.I.T.的同事们出版的书中指出,有些极度基本问题却是the Perception永远也无法解决的。
Minsky在对the Perception的批评还只停留在一层神经网络的不完善,直到多年后他才提出了类似于现代深度学习的理论。但在那个年代,Hinton早已知道只要采用多层神经网络结构就能完成复杂的任务。所谓神经网络,最简单的解释就是:它是能通过在数据中找出规律来进行分类或预测的机器。一层神经网络只能找出最简单的规律;多层神经网络就能找出规律中的规律。
举个例子,图像识别通常依赖于卷积神经网络。这种神经网络的第一层会学习“轮廓”,只提取边缘、线条等第几特征,下一次曾网络再找出上一层网络的规律。例如第几特征可能是圆圈或者长方形,而这些圆圈和长方形等图案里找出来的规律可能就是人脸。
1993年,Yann LeCun演示了卷积神经网络的早期版本 , 90年代后期开始全美支票识别的10-20%都应用了这种技术。如今最先进的图像识别系统也采用了类似的技术。
多层“深度神经网络”最麻烦的问题在于试错过程实在太复杂。如果是单层神经网络那倒还简单。想象一下你在带一个孩子,你和他说:“拿起绿球放进箱子A。”于是孩子拿起了绿球,放进了箱子B。你说:“再次拿起绿球,放进箱子A。”这次孩子放进了箱子A。好极了!
现在你对孩子说:“拿起绿球,走过第三扇门,把球放进箱子A。”孩子拿起了红球,走过第二扇门,把球放进了箱子B。你该从哪里开始纠正呢?你不能把指令原样重复一遍,因为孩子自己也不知道他哪里出错了。现实生活中你可以拿起红色和绿色的球对他说:“这是红球,这是绿球。”但机器学习的意义就是要避开明确的指示。Hinton当时发明的方案成功解决了层次错误问题,但由于人们期待过高,最后电脑科学家很快又认为Hinton这样的人就是故作玄虚的怪胎。
Pichai强调,Google今后转型为“A.I.第一” 指的并不是公司在商业战略上的转变。Pichai安排的资源分配保障了Hinton这样的人才可以有足够的计算机和数据来实现他们的理论。虽然说现阶段我们还无法做出与人脑相当的神经网络,但Google Brain的投资至少能让Hinton和他的团队做出老鼠大脑相当的人工神经网络。
目前为止人们对人工智能的恐惧很多都是怕人工智能今后会像反社会天才一样学习完图书管理的所有知识,然后把人类当生菜或是蚂蚁处理。但人工智能根本不会这么工作。他们会做的就是从信息里寻找共同点,例如基本规律,然后再进入到复杂。目前阶段人工智能最大的危险就是在给它们输入数据时一定要注意数据尽量不要有偏差。
想象一下,你用旧符号人工智能写了一个识别猫的程序。你花了好几天给机器灌输各种有关“猫”的定义。你告诉它,猫有四条腿,耳朵尖尖的,长着胡须和尾巴,等等等等;这些信息都被储存在了名为“猫”的记忆体中。然后你给计算机看猫的图片。电脑一定要从图片里分辨出这些特定要素,它才判断图片上的是猫。但如果你给它看苏格兰折耳猫呢?它就狗带了。
现在你决定让神经网络识别猫,不过神经网络没有任何明确的地方可以让你储存“猫”的定义,只有一堆互相连接的开关。这团网络的一端是Input(输入),也就是图片;另一端是Output(输出),也就是标签和定义。然后你让计算机自己找出规律,让输入对应到正确的输出。
网络之所以需要如此多的神经单元和数据是为了达成“机器民主”。想象一下你想教你的计算机分辨五样东西;计算机的网络里有几亿个神经单元充当“投票人”,每个人手里都有五种选择:猫、狗、蛛猿、勺子和除颤器。
然后你给选民们看一张照片,问他们“这是猫、狗、蛛猿、勺子还是除颤器啊?”所有投了同一选项的神经单元都被归到一组,然后网络里的领班辨认出票数最高的选项:“是狗吗?”
你说:“错了大师,是只猫。再来。”
于是领班再回去检查,哪些选民选了猫,哪些没有;那些选了猫的今后每次它们选“猫”时,他们的票数就当成双倍计算。这是因为系统要保证他们在识别狗和除颤器时也一样准确。神经网络能够如此灵活就是因为每个独立的单元可以为不同的输出做不同程度的贡献。重要的不是每一张票,而是投票的总体趋势和规律。如果Joe、Frank和Mary选择相同,那结果就是猫;如果Kate、Jessica和Frank选的一样,那就是除颤器。在经过足够的训练之后,神经网络就会记住规律:“这样的像素排列就是人们所说的‘猫’。”“选民”越多,让他们投票次数越多,网络就能记录更多的信号。
之所以会有这么多电脑科学家反对人工神经网络,原因就是因为它的预测是建立在规律中的规律上;它永远都不会达到完美,机器也永远无法给你一个明确的“猫”的定义。但好处也就在这里:只要你给它看过够多的图片,无论是什么样的猫它都能认得出,不管是晒太阳的还是躲在盒子里的。只要有够多的“选民”抓出所有细小的规律——例如苏格兰折耳猫,以及足够的标号数据,保证你的神经网络见识过可能发生的偏差。
但要注意的是,人工神经网络依赖于几率就意味着它们并不适合所有任务。如果它们在1%的情况下弄错猫或者狗,或者把你指引到错误的电影院,这些都还不算太惨;但如果放到自动驾驶车上的话,问题就大了。机器会学习,但初始分类仍然要人类来完成。如果你的把一张照着穿着西装的男人和女人标记为“女的和她的老板”,这样的关系就会被编入到今后的规律识别中。所以说,如果人类在输入时加的标签不够清楚或是容易出错,机器记住的标记了的数据也就容易出错。如果银行让电脑判断适合贷款的可信用的客户,机器可能会靠重罪犯列表等数据来判定。但如果这些数据一开始就不公平、不够准确,那么结果自然也有偏差。
像识别猫这样的图像识别网络不过是深度学习的诸多变种之一,但它可以算作是这一类神经网络的典型教材,因为每层网络做的事至少能让人类看出它们的分工。这种结构的好处就是系统对于错误的判断是有保险的。
在头1到2年的时间里,Brain项目展示了可喜的成果和前途,研究团队终于从X实验室转移到了更大的研究机构(Google X的领头人曾提起过,Brain项目支付了整个X实验室的开支)。团队规模依然不到10人,但前面的路都已经计划好了。
第一步是Brain发布的有关猫识别的论文,也正是这篇论文让Brain名声大噪。
猫论文向人们展示了拥有10亿多个突触链接的神经网络究竟能做到什么。这个神经网络的规模大于当时阶段的任何一个人工神经网络,当然比人类的大脑还是小了几个次方。Brain研究人员给神经网络看了数百万的YouTube视频的截图,神经网络自行总结出了猫脸的规律。电脑没有任何关于猫的特定标签或是预备知识,它只是直接进入了这个世界,自己找到了规律。研究人员通过神经网络的分析图像(相当于人类的M.R.I.),发现是一个模糊的猫脸影响让人工神经单元给“猫”投了最多的“票数”。在当时阶段,大部分机器学习还局限于标记数据的量。而猫论文则向世人展示了电脑也能处理未标记数据。这不仅是猫识别研究项目的大进步,也是人工智能技术的大突破。
猫论文的主要作者是Quoc Le。Le本是越南人,父母都是稻农,家里也没有电。Le从小就在数学方面展现出了天赋。90年代后期,还是学生的Le想自己造个机器人陪自己聊天;他当时想,这能多难?
“但事实上,真的实在太难了。”Le说道。
工作后,Le偶然读到了Geoffrey Hinton的两篇论文。
“他的辩论太宏伟了。那是我之前从未见识过的。”
Le决定放弃当时的工作,去斯坦福加入Ng的研究,追寻Hinton的理念。“到2010年底,我就非常确定我们的研究肯定能搞出什么大新闻来。”
Le进Brain团队当实习生后,就开始苦心钻研自己的论文,也就是后来的猫论文。起初他只是实验性地给神经网络看YouTube视频中截取的静止画面,让电脑自己删除图片中的部分信息,但并没有指示要删哪些信息。起初,电脑是随即删除信息的。然后他让电脑再把图片复原。这就好比他在要求电脑“总结”图片。逐渐电脑就总结出了规律,不过有些它找出的规律在人类看来是无法理解的。比如这个善于识别猫的系统不知道为啥还迷上了奇怪的形状,看起来像是奥特曼和羊的结合体。
Le当时觉得这个神经网络或许和他当年想做的聊天机器人会有千丝万缕的联系。如果电脑能总结照片,或许也能总结一句句子。这个问题成为了Le和他在Brain的另一位同事Tomas Mikolov接下来两年的课题。如今Mikolov已经离职去了Facebook。
2012年猫论文发布后的Google Brain团队
两年里,Le和Mikolov潜心研究如何让神经网络不仅能分类静态图片, 还能分析语言和音乐等动态的对象。他们知道,一旦自己能做出基础语言预测工具,今后人工智能领域就一切都顺了——无论是自动回复,还是预测对话等。
第二部分:语言机器
如今Brain的团队里已经有了100多个员工。6月份我去参观的时候还有些办公桌是空的,停车场也不满;10月份再去时,办公室已经没有了空桌,停车场也没有了空位。
Brain的飞速成长不禁让Dean担忧公司该如何对应市场需求。Google经常被称为“成功的灾难”,总是生产跟不上理论,难以用可行的产品实现理论;Dean正是想避免这一点。
“如果在未来,如果每个人每天都要对他们的安卓手机说上3分钟话,那我们就需要那么多机器。这个量实际上是相当可怕的。这意味着你得造新的办公楼。”
不过还有一种方法:设计和大量生产新型芯片。Google已经为人工智能开发出了专属芯片名为T.P.U,Tensor processing units。这种芯片在计算准确度上会打折扣,例如12.456乘以54.392它会自动处理成12乘以54。单神经网络对数学方面要求并不高。“通常为某个特定用途专门开发硬件不是好事,但考虑到神经网络将来的普及性,这个方法确实是最优解了。”Dean说道。
在芯片设计快要完工的时候,Le和两位同事终于成功让神经网络处理语言结构。分析语言与图片不同;电脑在分析语言时,其实它是在建立一个多维地图。如果是二维,这个地图就没用了。举个例子,你希望“猫”这个词能和“狗”接近一些,但你也希望这个字和“尾巴”、“表情包”等有些关系,因为你希望“猫”这个字能和这些词建立不同强度的关系,而这只有在多维地图上才是可行的。我执意要求Le向我解释一下这个地图看起来到底会是啥样,但Le无奈地说:“我不是很想尝试把千维的指标在三维空间里展现出来啊。”
理论上,如果你有个空包含了所有英文的一个空间,和包括了所有法语的另一个空间,你就能训练神经网络找出两个空间之间对应的所有话。你要做的就是在输入口载入几百亿的英文句子,输出口对应几百亿的法语句子,你就能让电脑预测对应某句英语句子的法语语句。
语言和像素之间最大的区别就在于:像素从一开始就全在图片上,是静止的;而语言则是有顺序的,每个词之间是要讲究排列的。你得找到方法让神经网络记住时间顺序,从第一个词倒最后一个词。Le和另外两位学者现已在论文中写到了完成这样的神经网络究竟需要哪些工具。Hinton告诉我,他认为接下来到完成为止至少还需要5年。
Le的论文证明了神经网络做翻译是可行的,但他参考的数据还不够大。更重要的是,Le的模型用在字数多于7个字的句子上效果都不太好。
Brain团队中的另一位科学家Mike Schuster从Le手中接过了接力棒。他知道,如果Google找不到解决方案,别人迟早会找到。这成为了他之后两年的课题。“人们以为让电脑翻译只需要搜集数据和做实验,但其实并不是那么简单。”Schuster说道。
Schuster要处理的问题还真麻烦;其中之一就是要想办法把Le的程序用Google的新开源机器学习平台TensorFlow重写。Dean为Schuster找来了两位得意助手,Yonghui Wu和Zhifeng Chen。两人花了2个月时间才在新平台上复制出了Le的结构,甚至连Le都不知道他们是如何做到的。
今年2月,Dean和Corrado一起在一次午餐会上找到了Google Translate总管Macduff Hughes。Corrado神秘兮兮地说:“我们有事要告诉你。”
两人告诉Hughes,今年可以让Google Translate改头换面了。抛弃几百名工程师10年来码的程序,改用人工神经网络。旧的翻译系统是所有机器翻译在过去30年来都在使用的:电脑会先翻译好碎片化了的句子,然后根据统计把这些翻译好的词再排列组合。这种方法被称作“基于词汇的统计学机器翻译”,因为一旦机器开始处理下一个词汇,它就忘记上一个是什么了。这就是为什么Google Translate的结果有时候看起来那么不合理。但Brain的成果却能让电脑阅读整句话,理解意思。
这个赌注下在Google Translate上似乎太过了,毕竟Translate的利润太低,而且目测还会一直继续低迷下去。就算系统突然升级,用户也不会太重视。但Google Translate的突破在长远看来是必要的;它对Google的转型是不可或缺的。Google估计互联网上50%都是英文,而全球约20%的人都在说英文。如果Google想进军中国市场和百度竞争,靠谱的翻译真是太重要了。更何况百度在这方面也不甘落后,在2015年6月就曾发布过一篇有关神经网络翻译的突破性论文。
在今后,机器翻译或许会成为人类语言开始普遍依赖电脑的第一步。这将会是世界的转折点,预兆着世界将走向真正的人工智能。
硅谷中大多数人都知道机器学习领域发展飞快,因此Hughes也知道Translate的改革迟早会来临。听完Corrado和Dean的说法,他好奇地问,他们能在接下来三年里做到吗?
Dean却说:“只要我们尽力,今年年底我们就能完成。”
一个月后,他们终于做了对比实验,比较Schuster的新系统与Hughes的旧系统。Schuster想用英文-法语翻译来做对比,不过Hughes制止了他:“英法翻译已经够好了,你们改良了估计也看不出。”
Schuster听完不由得跃跃欲试。衡量机器翻译通常人们都用BLEU指标,把机器翻译与靠谱的人工翻译作比较。在旧系统上,英法互译的得分为20+,算是非常高的;新系统若是能改良1分那就已经不错了,2分则是非常惊人的了。
人工神经系统的英法翻译得分比旧系统高出了7分。Hughes惊讶地表示,他们旧系统过去4年来的改良都不如新系统的一半。
为了证明结果的可靠性,他们还邀请客户来实验。根据客户印象分,最低为0、满分为6的得分表中,新系统比旧系统的得分要高0.4,这样的飞跃旧系统要很多很多年才能做到。
右边为Quoc Le,左边为Mike Schuster
3月中旬,Hughes给团队群发了通知邮件。旧系统上的所有项目都必须立刻停止。
到那时为止,神经网络翻译团队一共只有三个人:Schuste、Wu和Chen,不过在Hughes的支持下,团队开始壮大了起来。在Hughes的指示下,新团队人员在某个周三的下午共聚一堂。
理论工作都已经做好,剩下的就是如何把理论转化为真正可行的产品,也就是工程师该干的事儿。例如团队必须确保他们用正确的数据来训练翻译系统。十年来,Google翻译系统里已经记录了9700万个不同的英语词汇,但若是除去颜文字、拼写错误的和冗余,剩下的大约只有16万个词。
下一步就是要看用户想翻译什么。Google发现,很多人并不会让Translate翻译长且复杂的整句;他们只让系统翻译碎片化了的语句。如果要对应这种用户需求,神经网络在训练时也要朝着这个方向。Hughes告诉我,神经网络对于用于培训的数据非常敏感,不放过任何一个学习机会。
更重要的是,团队必须保证系统处理得足够快。今年2月时,Google Translate翻译10个字的句子需要10秒钟;新系统绝对不能这么慢。尤其是对于法语和中文这些使用频率较高的语种,系统应该几乎立刻给出翻译结果,因为Google不希望用户放弃自己的翻译服务,投奔它的竞争者。
Schuster当时自己也不清楚应该如何加快系统的翻译速度,不过他知道他们肯定需要更多GPU来训练神经网络。于是Hughes问他“要不要再多加1000个GPU”时,Schuster回答道:
“索性2000个好了。”
10天后,他们真的多加了2000个GPU。
4月份时,3人的团队扩张成了30人的团队。其中有Brain的员工,也有来自Translate的组员。5月份时,Hughes为每对互译语言分组都指派了临时管理人员,让他们给系统的翻译表现评分。团队里至少有20人每周都在进行不同的实验,不断解决新出现的问题。某天,有个模型突然把句子里所有的数字都挑拣出来删除掉。“大家压力都很大,几乎都想掀桌了。”Hughes说道。
今年暮春,新版Google Translate终于近乎成型了。一旦整个模型标准化,它就会成为一个不断进化的多语言系统,而不是以前那样的150个不同语言的模型。
“我们做过几百个实验,直到我们认为再过一个礼拜就可以停止对电脑的培训。我们总在问自己:‘我们什么时候停止?我怎么知道我们做完了没有?’事实上你永远不会知道。机器学习是永远不会达到完美的。但你必须训练它,然后到了某个点再停止。最后只能说有些人做得比较好,有些人做得不那么好。”
5月份时,Brain团队终于发现,让系统提升速度的唯一一种方法就是在T.P.U. 上运行它。Chen对此表示:“我们不知道什么是正解,但我们知道没有T.P.U.的话,一切都没有可能。”不过改用T.P.U.之后系统也没有立刻改善,团队花了两个月时间才找到解决方案。团队不仅仅对翻译模型进行了调试,对芯片本身也进行了错误排查。神经网络翻译项目其实是对整个基础设施投资这个概念的经典诠释。
6月份的某次团队会议上,组员们讨论起了百度新发表的论文。Schuster发言了:“没错,百度是发表了论文。看来有人和我们走了一样的路,用了类似的结构,取得了类似的成果。”百度当时的BLEU得分与Google在2-3月份在内部测试中的得分不相上下。Le丝毫没有生气;他认为,这证明Google走得路是正确的。
Google团队知道他们的结果发布的比竞争对手早,因此占得了先机。不过Schuster强调:“发布产品比发表论文重要得多。谁先提出根本无关紧要,看的就是谁的产品更厉害。”
不过Google会成为首个推出神经网络翻译服务且成为该领域最领先的公司,这是势在必得的。Hughes决定给用户准备个惊喜,暂时保密该消息。他们想看Google Translate的进步是否会在社交媒体上成为热门话题。
Google的神经网络翻译终于真正成功了。到举办庆功派对的时候,公司的中英互译利用次数已经高达1800万次。不过当Google公布中翻英服务现已更换成神经网络驱动系统时,有人猜测这是因为Google只在这两个语种的互译上获得了不错的成果。不过参加派对的每个人都知道,到11月,一切都将明了。
庆功宴上,Hughes向团队致辞敬酒:
“致沟通!和协作!”
小程序搜索难?猎云网精品小推荐正式上线,你想要的都在这里: xiao.lieyunwang.com
262004