谷歌人工智能背后的大脑:最快15年实现通用人工智能
Jeff Dean 在获得华盛顿大学计算机科学博士学位的三年之后(1999 年)加入了谷歌公司,成为了该公司最早的员工之一。在谷歌的成长过程中,他一直是该公司的头面人物――设计和实现了支撑谷歌大部分产品的许多分布式计算基础设施。
谷歌 CEO Sundar Pichai 曾说过谷歌将会变成一家人工智能优先的公司;作为系统和基础设施组(Systems and Infrastructure Group)的高级成员,Dean 及其团队对实现这样的目标至关重要。在这个涉及范围广泛的访谈中,Dean 描述了他在谷歌的多种角色、该公司的人工智能愿景、他对谷歌如何在作为科技巨头的同时保持创业精神的想法,以及其它许多主题。
Peter High:Jeff Dean,你 1999 年加入谷歌,见证了该公司大部分历史。请给我们简要描述一下你这 17 年来在该公司所扮演的角色的发展。
Jeff Dean:当我加入的时候,谷歌还相当小。我们都挤在帕洛阿尔托大学路(University Avenue)上的一间小办公司里。我的第一个主要工作是创建我们的第一个广告系统。然后我用了四五年的时间来开发在谷歌上的每次查询都会用到的检索、索引和搜索系统。在那之后,我基本上在和 Sanjay Ghemawat 等一些同事一起开发谷歌用来存储和处理大型数据集与做构建搜索索引或处理卫星图像等事情的软件基础设施。最近一段时间,我一直在开发研究机器学习系统。
High:鉴于你的涉及范围和角色是如此地广泛,我想你可能没有「平常的一天(average day)」。你如何确定与公司内外的什么人进行交流?我很想知道你如何在你所从事的不同事情上分配时间。
Dean:我没什么典型的一天。在开始的十四或十五年里,我没有任何管理上的工作,那给了我更多自由时间来专注编写代码。过去几年,我管理了一些机器学习上的工作,这对我来说是一件有趣而新颖的学习经历。因为我在该公司的这段历史里做过很多事情,而且我喜欢这些不同的项目进展保持关注,我常常收到很多邮件。我在处理电子邮件上花了很多时间,大部分是删除或略读它们以了解事情的进展。在任何时候,我都有几个技术项目要做,所以我需要在各种会议和设计审查这些事情之中找到花费我每天时间的方法。
High:尽管谷歌实现了急速的成长,但谷歌一直是创新的典范。它的雄心和创新精神看起来就好像它还是一家小公司一样,但它现在已经拥有了人力和财力上的资源,是科技行业的庞然大物。谷歌这家企业是如何打败繁文缛节和官僚主义,从而使其保持与其体量不相称的灵活性的?
Dean:自我加入公司以来,谷歌基本上就一直在不断成长。早些年的时候,我们的员工数量每年都在翻番。在百分比上,我们现在已经放缓了;但在绝对数量上,我们仍然有相当显著的增长,员工的数量每年都会增长大概 10% 到 20% 的样子。公司体量的每一次倍增都会迫使我们重新思考该在公司内部如何完成事情。在 X 人时有效的做法,人数扩增到两倍时已经行不通了,我们必须搞清楚如何适应我们的风格、我们的工程开发、组织架构、团队动态等等以适应新的公司规模。
我认为在增长中对我们有所助益的一件事情是我们往往会分支到许多不同的领域,这些领域在某种程度上独立于谷歌的其它部门的工作。创造用于接入互联网的高空气球的部门与提供搜索查询的部门只有相对适中的互动。和我们核心业务中的项目不一样,我们许多不同活跃项目都不需要那么多的交流,这让我们可以实现规模和效率。
High:我理解谷歌/Alphabet 分离的部分原因是因为要将不同类型的活动分开以保持敏捷。这是一个合理的评价吗?
Dean:我认为是的。我认为这能让 Alphabet 旗下的其它实体能更独立地运作。对于规模的倍增,我想说通过一些有趣的转变,我们从所有人都在一个建筑里工作变成了现在不再同一个建筑里。
后来,我们的工程开发工作也从山景城扩散到了苏黎世、纽约、东京和西雅图。我们这五处办公室已经有一段时间了,而且这些办公室现在已经发展得相当大了。再后来,在短短几年之内,我们工程开发的办公室数量就从五个增加到了三十五个,因为我们觉得在世界各地寻找优秀人才并围绕他们开设办公室是非常好的。这让我们不得不重新思考我们该如何去组织大量的工程开发工作。如果你有一个小办公室,它就可能不应该做一百件事;它应该只做少数几件事,并专心将它们做好。一些小公司采用的模式是看山景城的其他人怎么做,他们看到别人正在做一百件事,所以他们认为自己也应该做一百件事。我们慢慢找到了一种使用分布在世界各地的工程办公室中所有人的更好的方式。
High:谷歌 CEO Sundar Pichai 曾经说过,从长远来看设备将逐渐消失,计算将从移动优先(mobile first )进化到人工智能优先(AI first)。请你描述一下谷歌的人工智能优先的愿景。
Dean:我认为我们已经从桌面计算移到了移动计算,每个人都随身带有一个「计算设备」。随着设备继续缩小,语音识别和其它类型的可替代的用户接口变得更实用,这将改变我们与计算设备交互的方式。它们可能隐入背后,并围绕着我们,让我们能够像与可信赖的伴侣一样和它们交流。它们将协助我们获取想要的信息,或者帮助我们完成各种各样的任务。我认为这是向前推动机器学习的一个主要目标:在提供建议上拥有能够像人类伙伴那样智慧的计算机、当需要的时候它们能够寻找到更多的信息等这种事情。我认为接下来五到十年将会是一段令人激动的时间段。
2016 年 5 月 18 日,谷歌 CEO Sundar Pichai 在谷歌 I/O 大会上发言
High:因为取得了一些进展,人工智能的不同目的也完成了一些,看起来一些人不再将这些成就视为真正的人工智能。也就是,人工智能似乎总是以未来时的语气在讨论。你将如何定义人工智能的范围呢?
Dean:我认为真正的通用人工智能是能够表现出人类水平的推理、理解和完成复杂任务能力的系统。很明显,我们还未达到这一步,但你说已经有了很多的进展是正确的。 五年前,计算机接收一张图片然后生成人类水平的语句描述图片还是不可能的。现在,一台计算机生成的句子可能会说:「这张图片是一个正拿着网球拍站在网球场上的男人。」同时,一个人可能会说:「这张图片是一个网球员正要发球。」人类的描述更为精细,但事实上计算机已经能够产生看起来几乎是人写的描述语句,这已经是一个相当大的进步了。在过去五六年中,随着人们应用的一些更为复杂的机器学习模型,我们取得很多进展,这只是其中的一个例子。因为他们使用更大的数据集和更多的计算能力运行这些模型,结果也已经变得更好了。
2016年 3 月,谷歌 DeepMind 挑战赛上,韩国围棋大师李世石与谷歌的人工智能程序 AlphaGo 对决
High:你认为我们离通用人工智能还有多远?
Dean:这取决于你问的是谁,不同的人会给出不同的估计。我不想妄加猜测,只能给出一个宽泛的估计。我认为我们还需要 15 到 50 年――可能接近这个范围的更低的一端。
High:你之前提到,语言是诸多关键要素中的一种,而且谷歌的许多人工智能计划也是围绕着语言,比如阅读、理解网页上的所有内容或者智能化地交流和理解上下文语境。你能谈一下让机器更好地理解语言的途径吗?为了迈向(如果尚未完成)通用人工智能,你预见的发展道路是怎样的?你在这方面做着哪些工作?
Dean:我认为一件有趣的事是信息检索领域,这是谷歌早期工作的基础。传统上看,这并没有试图真正理解用户在点击搜索时到底想要什么。它更像是查找包含用户所输入词的文件或意思接近这些单词的内容。有趣的是,在最近的四五年里,我们已经开始研发出可以更好地理解「车」这个词的本质的技术。知道「一辆车( car )」、「一些车( cars )」、「汽车( automobile )」、「客车( passenger car )」和「小型运货车(pickup truck )」在某种意义上是相关的,而且能以这种更流利的方式匹配文件,促成了在许多语言理解任务中的更好表现。
我们不仅能理解词汇,还能抓住要点,理解两个相互释义的句子在某种意义上有相同的意思。机器开始达到我们人类理解语言的水平,我们将能够以更多机器学习的方式推动机器理解更长篇幅的文本。
接下来几年我们的目标是让机器系统吸收成百上千份文件,然后能谈论文件里的内容。也许系统将总结这些文件,针对文件内容提出或者回答问题。我认为这就是要真正表现出高水平语言理解所需的理解水平。
High:你和你的团队取得的一些进展似乎已经用于谷歌的各种产品:谷歌助理――谷歌新的虚拟语音助手;Google Home――你们对亚马逊 Echo 的回应;还有 Allo ――一款提供获取谷歌服务的对话接口的消息应用 。你怎么看待这些最近发布的新产品和谷歌内部的试用产品?
Dean:我那时领导的研究团队叫做谷歌大脑(Google Brain)。我们专注于构建大规模的机器学习计算系统和研究高级的机器学习技术。有这两种不同技能的人们聚集在一起共同解决难题,取得了明显的进步,而只具有机器学习技能或大规模计算技能的人通常不能独自获此成就。在我们能将这些问题在多大程度上扔给计算机程序和我们如何训练出强大的模型解决我们关心的问题上,我认为这是让我们团队在两个领域内都取得相当大的成功并推动了技术向前发展的其中一个原因。
在做长期研究时我们一直是相当机会主义的,我们懂得什么时候我们的一些研究成果可以用于改善谷歌现在的产品。我们将和产品团队一起工作,我们会说:「嘿,我们认为这项机器学习研究在你的产品中是有用的。」有时这是一个完全不能干涉的事情。而有时我们这个团队和产品团队又会深度合作,让研究成果在产品中实现其价值。
我们团队中的一些研究人员开发了一个模型,叫「序列到序列学习(sequence-to-sequence learning)」。这个模型的核心想法是你用一个输入序列来预测某些输出结果序列。听起来有点抽象,但可以映射到许多你想要解决的真正问题。他们发表的这个研究论文最初是语言翻译背景下的应用。输入序列可以是一个句子的英文单词,一次一个。该模型被训练去输出对应的法国单词来创建一个法语句子,意思与输入的英语句子相同。这不同于其他机器翻译系统,别的机器翻译系统往往是代码和子件(sub-piece)的问题――也许使用了机器学习或统计模型将它拼接在一起。相比之下,这个系统是一个完全的机器学习的端到端系统,在这个系统中你投进成对的在不同语言中表达同一个意思的句子,然后系统就能学会将一种语言翻译另一种语言。
这个通用模型在其他环境中也很有用。Gmail 团队将它用作了一个名叫「智能回复」的功能的基础,这里面的输入序列是一个传入的电子邮件,生成序列是根据这个邮件的内容预测出的可能回复。比如,你收到一封这样的邮件:「嗨,我们想邀请你来吃感恩节晚餐。请告诉我们你能不能来。」这个生成的回复可能是「好的,我们会来。我们能带点什么过来吗?」或者是「对不起,我们来不了了,」或者是其他对应语境的类似回复。用的是相同的基本模型,只是训练的数据集不同。
High:谷歌大脑的这个研究在谷歌其他更多的传统产品分支中有什么潜在的应用和突破?
Dean:我们已经开始将这个流程变得规范一点。五年前,当我们最初创建机器学习研究团队以调查海量计算和深度神经网络如何解决问题时,公司里还没有太多人使用这些方法。我们发现了一些用它们可以有效处理的领域,包括语音识别系统,所以我们与语音识别团队的人密切协作,从而将深度神经网络配置为了语音识别系统的一部分,并且在识别准确率上取得了实质性进展。然后我们和各种计算机视觉相关团队合作,比如图片搜索和一些街景服务团队,从而训练模型在给定的各种图片的原始像素下做有趣的事情――从图片中提取文本或者理解图片内容是什么(美洲豹、垃圾车等等)。
有趣的是,随着时间的推移,越来越多的团队开始采用这些方法,因为他们总会听说另一个团队用这些方法取得了好结果。我们会帮助这样两种团队建立联系,或者,提供一些关于在特定的问题情境中如何使用这些方法的基本建议。后来我们将此流程规范了一些,所以现在我们有一个专门的团队负责外联。这是为正在产品中尝试这些机器学习模型的团队建立联系的第一点。他们会描述他们的问题,然后外联团队会告诉他们:「噢,听起来很像另外这个团队的问题,这个解决方案会帮到您,试试并记得给我们反馈哦。」这种外联团队的数量正在急剧增长――从 2011 年、2012 年的几个团队增长到现在的 200 多个团队,并且可能已有几千人用我们团队的软件训练过这种模型了。
High: 你也是谷歌开源机器学习库――TensorFlow 的创始人之一。像其他几家公司一样,谷歌正关注开源人工智能技术的开发。请谈谈你对使用开源人工智能技术的理论基础及优势的看法。
Dean: 有许多不同的构架来表达不同的开源机器学习算法。我认为有更多的选择总是好的,但如果我们可以开发出能获得机器学习社区支持,大家一起来改进的东西的话,也很好。其他许多人都在尝试着相似的工作,所以如果我们能将重复工作的成果放在一起,构成一个许多人都会采用的库就会非常方便。原因是这会使机器学习想法的表达变得更简单。传统的方式是人们写一篇论文,谈谈他们有了一个想法,然后开始探索,做一些实验,但通常他们并不会公开代码,其他人便没法重复这些实验。作为一个研究者,你正在看某人的论文,并尝试将你自己的技术与其对比。通常,因为论文中没有代码,你只能猜测那些代码会是什么。并不是作者有意隐瞒,而是论文的属性决定了其会省略大量细节。论文中可能会有像「我们使用了低的学习率」一样的描述,然而你关心的可能是他们是否使用了 .0001 的学习率,在一万步后将其降低到更小值。所以建立一个软件架构,让人们可以以代码的形式表达机器学习想法并将这些研究模型和想法以可执行形式发布到这个构架中,这使得想法的交流更加通畅。
对于我们自己而言,这也使得我们与谷歌公司以外的人的合作更简单。通常我们会招暑期实习生,在过去,他们几乎快完成实习项目的时候,仍然在写关于他们工作的论文。但后来他们离开了谷歌,没法再接入谷歌的电脑了,这使得他们很难继续完成他们的论文或者进行更多的实验。现在他们可以办到了,只需要使用开放源或者 TensorFlow,然后熟悉如何用 TensorFlow 表达机器学习想法的人就可能会过来帮忙。TensorFlow 正作为基础教学工具,帮助我们教授许多谷歌工程师机器学习的知识。
2015 年 11 月 9 日,伦敦时任市长 Boris Johnson 在探访谷歌位于以色列特拉维夫市的办公室期间佩戴虚拟现实眼镜。
High:谷歌的一个优势是在人工智能和机器学习上拥有大量人才。你们的研究部门负责人 Peter Norvig 曾估计说谷歌在机器学习领域拥有世界上 5% 的顶尖专家。谷歌是如何变得对人才有如此吸引力的?而鉴于人工智能位于许多不同学科(计算机科学、工程学、神经科学、生物学、数学等)的交叉领域,你认为应该怎样将人才和技能组合到一起,以确保你能在正确的位置上安置合适的人才?
Dean:因为我们涉足的领域很多,所以我们需要拥有多种专业知识的人。我发现,当你把具有不同专业知识的人聚在一起去解决问题时,你会发现最终得到结果比那些只具备一种专业知识的一大群人一起做出来的要好。总的来说,你最终做的事情,没有人可以单独做出来。我们的机器学习团队是一个很好的例子。我们有像我一样在建设大规模计算系统方面有很多的经验人,然后我们也有世界级的机器学习研究人员。把这些类型的人结合起来是一个非常强大的团队。机器学习正在接触很多不同的领域。我们正在做的工作涉及医疗、机器人和计算机科学里的一大堆领域,这非常的好。在我们团队中有数位神经科学专家。
很快我们将开始一个有趣的实验,它被称为「谷歌大脑培训项目(Google Brain Residency Program)」。我们正在招人到谷歌和我们的团队一起工作一年,基本上是学习如何做机器学习研究。我们有大量的申请者,这个项目最终会留下 28 个人。他们来自不同的背景,处在事业生涯的不同阶段,有人刚刚完成本科学习,有些人则读完了博士,还有些人刚要结束他们的博士后阶段,另一些人已经在不同的行业干一段时间工作。但他们也带来了计算机科学、统计学、数学、生物学、物理学的背景。我认为这将会是一个很好的组合,在解决很多问题时都有综合不同的观点。
High:我很好奇,有很多不以技术为中心的传统公司也会使用人工智能和机器学习,你会在多大程度上与更多传统公司工作和交流吗?你如何看待公司对人工智能技术的采纳曲线?显然这涉及了不同公司甚至是不同行业。但也有一些领先的传统行业开始利用人工智能,包括医疗、金融服务公司、有大量非结构化数据需要处理的公司。你是否曾经有机会与传统行业的公司互动或者谈论他们在更加传统的环境中走向人工智能的过程?
Dean:其他行业的大多数公司可能没有像谷歌或者其他技术公司那样应用机器学习。我认为,随着时间的推移,最终大多数公司将采用越来越多的机器学习。因为机器学习会逐渐强大到为他们的业务带来革新。我们已经与一些大型的医疗机构讨论了建立合作伙伴关系,看看什么机器学习可以为该领域的特定类型的问题做些什么。我们最近推出了一个云机器学习产品,可以让人们在谷歌的云基础设施上运行机器学习算法,显然有许多公司有兴趣了解在他们的业务的环境中怎么使用该产品。
我认为这种转变会发生的途径之一是通过几个层次,在这些层次中,你可以使用人工智能技术和机器学习的方法来解决问题。在一些领域,了解图像中有什么东西对很多行业来说是普遍有用的。谷歌和其他公司正在提供使用起来比较简单的接口,在那里你不需要知道任何机器学习。你可以只给出一个图像,然后说「跟我说说这个图像」,并且任何没有机器学习专业知识的软件工程师都可以使用,他们得到的信息会像是「照片上有个体育场,人们在那里打棒球,而且图像中还有一堆文字,文字是......」即使没有应用机器学习,这也会是非常有用的。
然后将会有已经开发好的模型,可以用公司的数据重复训练这个模型来得到一个定制化的解决方案,而无需做核心机器学习研究来开发一个全新的模型。一个很好的例子是序列到序列的工作,现在已经应用到谷歌的六七个不同的问题中。另一个很好的例子是一个采集图像的模型,它能发现该图像中有趣的部分。这个通用模型的一个应用是检测街道视野图像中的文本在什么位置。你想能阅读所有的文本,但是首先你必须能在店面前,路牌上等这类地方找到它们。这种通用模型在医疗环境中也有用,比如在诊断糖尿病性视网膜病变时,你有一个视网膜的扫描图像,你想找到该扫描图像上的疾病指标,这时你就能用上这个模型了。用的是相同的模型结构,你只不过是在不同的数据中指出病变。你不是在用文本高亮显示的街道视图图像,而是在医生已经圈好病变部位的视网膜图像上指出它。我认为通用模型的方法能很好地解决很多不同类型的问题。
High:在 3 月份,你至少是首次看到了 Alpha Go 在韩国取得的首场胜利。亲身见证取得如此进展感觉如何?对此次如同世界博览会一样的展示你有什么看法?在人工智能广泛应用于日常生活上,这对抓住人们的想象力、激起好奇心方面又什么更广泛的影响?
Dean:首场比赛我在现场,比赛日程中的一半时间我也一直在韩国。难以相信当时是多么的激动。当时,中国有 3 亿人观看了首场比赛直播,他们有 18 个频道在播送这场比赛,每个频道都有不同的专业评论员。韩国也有类似的兴奋。就像马戏团一样。
我认为这种高调的事件展示了在人工智能相关的各类问题上取得的重大进展。我需要指出的是,Alpha Go 的大部分工作是由 DeepMind 团队在伦敦完成的。在项目的初始阶段我们给了他们一些协助,他们也使用了我们的机器学习软件训练 Alpha Go 的一些模型。他们也使用了一个 Tensor 处理单元(Tensor Processing Unit,TPU),这是谷歌设计的定制版机器学习硬件芯片,在某种程度上它也是这场比赛的「秘密武器」。人们正在注意到这样一个事实,计算机有着它们四五年前还不具备的能力,这让人很激动。全球入学计算机科学系,学习机器学习课程的学生人数也在突飞猛涨。我认为这是一件伟大的事,它不仅影响了计算机科学,还有公司以及产业内的所有事。有越多聪明的人思考这类问题,社会就会得到进步。
High:有一些人高调地发出关于人工智能安全忧虑的警告,比如 Elon Musk、比尔盖茨、霍金。你如何看待这种风险?当你继续思考人工智能相关进程时,你如何将此考虑到你的规划中?
Dean:我想我不太深信你提到的那些人担心的末日情境。我不认为这会成为现实。我认为人工智能会导致社会变迁,这是之前难以实现的自动化中的最大的一个方面,这关乎到大量的劳动力。这些事情中有一些将被自动化,即使可能不是完全的自动化。计算机将能够以各种方式提供协助,比如阅读医疗图像数据,这是一个非常狭窄却需要高技能的领域。我认为计算机在不久之后会非常擅长做这个,更不要说是计算机做自动驾驶的能力了。我不确定政府是否正在谨慎的考虑这些技术带来的影响,以及大体上它们对社会意味着什么。我想这才是更为急切的忧虑。确认政策制定者正在认真考虑这些问题是非常重要的一步。
【钛媒体作者介绍:本文作者Peter High ,由机器之心编译,参与人员包括杜夏德、吴攀、无我莽莽、黄清纬、李亚洲。机器之心微信公号“机器之心”(almosthuman2014)】
更多深度观点,关注钛媒体微信号:钛媒体(ID:taimeiti)
钛媒体微信二维码