谷歌大脑是如何炼成的:万字无删减版全解密(二)
雷锋网按:如果说到在机器学习领域领先的公司,想必你不会忽略谷歌。从谷歌翻译到从机器视觉,谷歌一直努力将机器学习应用于可能想象的任何地方。本文会讲三个故事,它们在 Google 翻译向 AI 的成功转型中整合在了一起:一个技术故事,一个制度故事和一个关于思想演变的故事。本文源自纽约时报,作者Gideon Lewis-Kraus,雷锋网编译,未经许可不得转载。
第一部分:超级学习机器
Jeff Dean
1. 谷歌大脑(Google Brain)的诞生
虽然 Jeff Dean 顶着高级研究员的头衔,但其实他才是谷歌大脑部门的真正大脑。Dean 长着像卷福一样的长脸,眼窝深陷、身材健壮且精力充沛,总是在谈话中透出一股热情。
Dean 的父亲是一位医学人类学家兼公共卫生流行病学家,经常辗转于世界各地。因此, Dean 的童年也是在周游世界中度过的,明尼苏达州、夏威夷、波士顿、阿肯色、亚特兰大和日内瓦、乌干达、索马里等地都留有他的身影。
同时,Dean 从小就擅长制作软件,他在高中和大学时编写的软件就被世界卫生组织买走使用。1999年,Dean 正式加入谷歌,当时他才 25 岁。从那时起,他几乎参与了谷歌所有重大项目的核心软件系统开发。作为一位功勋卓著的谷歌人,Dean 在谷歌内部甚至成了一种文化,大家都拿与他有关的梗来说俏皮话。
2011 年年初,Dean 在谷歌的休息室遇见了吴恩达,后者是斯坦福大学的计算机科学家,同时也是谷歌的顾问。吴恩达表示自己正在帮助谷歌推进一个名为 Project Marvin 的项目(以著名的 AI 先驱马文·明斯基命名),模仿人类大脑结构的数字网格,用于研究“神经网络”。
1990 年在明尼苏达大学读大学时,Dean 也曾接触过此类技术,当时神经网络的概念就已经开始流行了。而最近五年里,专注于神经科学研究的学者数量再次开始快速增长。吴恩达表示,在谷歌 X 实验室中秘密推进的 Project Marvin 项目已经取得了一些进展。
Dean 对这个项目很感兴趣,于是决定分出自己 20% 的时间投入其中(每位谷歌员工都要拿出自己 20% 的时间从事核心职务外的“私活”)。随后,Dean 又拉来了一位得力助手,Greg Corrado 拥有神经科学背景。同年春季末,该团队又迎来了第一位实习生――吴恩达最出色的学生 Quoc Le 。在那之后,Project Marvin 项目在谷歌工程师口中变成了“谷歌大脑”。
“人工智能”一词诞生于 1956 年,当时大多数研究人员认为创造 AI 的最佳方法是写一个非常高大全的程序,将逻辑推理的规则和有关世界的知识囊括其中。举例来说,如果你想将英语翻译成日语,需要将英日双语的语法和词汇全部囊括其中。这种观点通常被称为“符号化 AI ”,因为它对认知的定义是基于符号逻辑的,这种解决方案已经严重过时。
说这种方案过时主要有两个原因: 一是它非常耗费人力和时间,二是只有在规则和定义非常清楚的领域才有用:如数学计算和国际象棋。 但如果拿这种方案来解决翻译问题,就会捉襟见肘,因为语言无法与词典上的定义一一对应,而且语言的使用中会出现各种变形和例外。不过,在数学和国际象棋上符号化 AI 确实非常强悍,绝对无愧于“通用智能”的名头。
1961 年的纪录片点出了人工智能研究中的一个共识:如果可以让计算机模拟高阶认知任务(比如数学或象棋),就能沿着这种方法最终开发出类似于意识的东西。
不过,此类系统的能力确实有限。上世纪 80 年代,卡耐基梅隆大学的研究人员指出,让计算机做成人能做的事情很简单,但让计算机做一岁儿童做的事情却几乎不可能,比如拿起一个球或识别一只猫。十几年后,虽然深蓝计算机在国际象棋上战胜世界冠军,但它离理想中的“通用智能”差的还很远。
关于人工智能,研究人员还有另一种看法,这种观点认为电脑的学习是自下而上的,即它们会从底层数据开始学习,而非顶层规则。这一观点上世纪 40 年代就诞生了,当时研究人员发现自动智能的最佳模型就是人类大脑本身。
其实,从科学角度来看,大脑只不过是一堆神经元的集合体,神经元之间会产生电荷(也有可能不会),因此单个神经元并不重要,重要的是它们之间的连接方式。这种特殊的连接方式让大脑优势尽显,它不但适应能力强,还可以在信息量较少或缺失的情况下工作。同时,这套系统即使承受重大的损害,也不会完全失去控制,而且还可以用非常有效的方式存储大量的知识,可以清楚区分不同的模式,同时又保留足够的混乱以处理歧义。
其实我们已经可以用电子元件的形式模拟这种结构,1943 年研究人员就发现,简单的人工神经元如果排布准确,就可以执行基本的逻辑运算。从理论上来讲,它们甚至可以模拟人类的行为。
在生活中,人类大脑中的神经元会因为不同的体验而调节连接的强弱,人工神经网络也能完成类似任务,通过不断试错来改变人工神经元之间的数字关系。人工神经网络的运行不需要预定的规则,相反,它可以改变自身以反映说吸纳数据中的模式。
这种观点认为人工智能是进化出来而非创造出来的,如果想获得一个灵活且能适应环境的机制,那么绝对不能刚开始就教它学国际象棋。相反,你必须从一些基本的能力,如感官知觉和运动控制开始,长此以往更高的技能便会有机出现。既然我们学语言都不是靠背诵词典和语法书的,为什么计算机要走这一道路呢?
谷歌大脑是世界上首个对这种观点进行商业投资的机构,Dean、Corrado 和吴恩达开始合作不久就取得了进展,他们从最近的理论大纲以及自 20 世纪八九十年代的想法中吸取灵感,并充分利用了谷歌巨大的数据储备和庞大的计算基础设施。他们将大量标记过的数据输入网络,计算机的反馈随之不断改进,越来越接近现实。
一天,Dean 告诉我“动物进化出眼睛是自然界的巨变。”当时我们正在会议室里,Dean 在白板上画出了复杂的时间线,展示了谷歌大脑与神经网络发展历史的关系。 “现在,电脑也有了‘眼睛’,我们也可以借助‘眼睛’让计算机识别图片,机器人的能力将得到巨大的提升。未来,它们能够在一个未知的环境中,处理许多不同的问题。”这些正在开发中的能力看起来虽然比较原始,但绝对意义深远。
2. 重量级实习生 Geoffrey Hinton
Geoffrey Hinton
Dean 表示,诞生一年后,谷歌大脑就在开发具有一岁儿童智力机器的实验中取得了巨大进展。谷歌的语音识别部门顺势将自己的老系统中的一部分改成了神经网络,借此该系统取得了 20 年来最好的成绩。同时,谷歌的物体识别系统也跃升了一整个数量级。不过,这并非因为谷歌大脑的团队想出了什么新点子,而是因为谷歌在该领域投入了大量人力物力,填补了原本研发领域的空缺。
随后,Geoffrey Hinton 的到来将谷歌的战果再次扩大。成立第二年,吴恩达离开谷歌(现任百度首席科学家,领导 1300 人的 AI 团队),Dean 则请来了 Hinton,原本 Hinton 只想离开多伦多大学在谷歌待三个月,因此他成了谷歌的重量级实习生。在实习生培训过程中,辅导人员会说“输入你的LDAP(目录访问协议)”,从没在此类公司任职过的 Hinton 举手问道:“什么是LDAP ?”在场一起接受培训的年轻人,虽然只是刚刚弄清深度学习与人工智能的关系,却都在想“这个老家伙是谁?为什么他连 LDAP 都不懂?”
直到有一天,一位学生在餐厅见到 Hinton 教授并问道“Hinton 教授!我选修了你的课!你在这里做什么?”一切关于他的质疑才烟消云散。
几个月后,Hinton 在两位学生的帮助下,在 ImageNet 大型图像识别竞赛中技惊四座,计算机不仅识别出猴子,而且能区分蛛脸猴和吼猴,以及各种各样不同品种的猫。随后,谷歌马上对 Hinton 和他的学生伸出了橄榄枝,他们也欣然接受。“我本以为谷歌要买我们的知识产权,”Hinton 说道。“结果它们是对我们这几个人感兴趣。”
Hinton 出身于一个传统的英国家族,他们家非常重视教育,因此出了不少著名学者。他的曾祖父 George Boole 在符号逻辑方面的基础工作为计算机专业打下基础,Hinton 的另一位曾祖父是著名的外科医生,Hinton 的父亲则是一个热爱冒险家的昆虫学家,而 Hinton 父亲的表哥则在 Los Alamos 研究所工作。
Hinton 也很争气,他先后在剑桥和爱丁堡两所高等学府进修,随后又到卡耐基梅隆大学教书,现在 Hinton 则转到了多伦多大学。笔者曾在 Hinton 的办公室对他进行采访,当时 Hinton 衣帽整齐,一副英国绅士形象。不过,一开口 Hinton 的个人色彩就挡不住了,他甚至打趣说“电脑恐怕都比美国人更早理解讽刺为何物。”
上世纪 60 年代在剑桥求学时,Hinton 就开始了对神经网络技术的研究,他是该领域当之无愧的先驱。不过,由于该理念过于超前,每次他向别人提到机器学习,人们都觉得他是在胡扯。
由于受到了感知机(Perceptron ,50 年代末研发的人工神经网络)这一概念被过去热炒的影响,当时搞神经网络的研究的人简直就是学术界的异端。当时,《纽约时报》还曾撰写报道称,感知机未来有可能会“走路、说话、阅读、写作甚至再造自己,并意识到自己的存在”。结果这证明这一切只是幻想而已。
1954 年,马文·明斯基在普林斯顿的论文中就将神经网络选做研究主题,但他对Rosenblatt 关于神经范式所做的夸张说法已经厌倦了。后来,明斯基与麻省理工的同事合作出版了一本书,证明了有些问题即使非常简单,感知机也永远无法解决。
不过,当时的条件下明斯基抨击的只是“单层”的神经网络,而 Hinton 则认为若使用多层神经网络,就可以执行复杂的任务。简 单来说,神经网络就是一台机器,能够从数据中发现模式并以此进行分类或预测。有一层神经网络,你可以找到简单的模式,但如果层数增多,就可以找出模式中的模式。
如果将这一理论套用到图像识别中去的话,执行图像识别的神经网络主要使用“卷积神经网络”(这是 1998 年的一篇开创性论文中阐述的概念,该论文的主要作者是法国人 Yann LeCun ,他曾是 Hinton 的学生,现在则是 Facebook 人工智能实验室负责人),网络的第一层负责学习识别图像最基本的视觉效果“边缘”,也就是判断一个像素旁边是否有东西。
随后的各层神经网络都会从前一层寻找模式,“边缘”可以是圆型也可以是矩形,而这些形状可能就是人脸。这种识别方法与人眼类似,都是将信息组合在一起,从视网膜中的光线感应器将信息回传到大脑的视觉皮层。在处理过程中,那些不相关的细节会被即可丢掉,因为如果各种形状结合成一张脸后,你无须在意脸部的位置,只需明确它是一张脸就行。
在 1993 年的一段演示视频中,Yann LeCun 展示了自己卷积神经网络的早期版本,该系统随后派上了大用场,在 20 世纪末处理了美国银行经手的 10%-20% 的支票。现在,卷积神经网络则成了图像识别系统背后的超级大脑。
不过,多层的深度神经网络可不像单层的那么容易搭建。假设你在训练一个小孩子,让他拿起绿色的球放进红色的盒子,这一动作很容易学习,但如果你要求那个孩子拿起绿色球穿过三号门再放进 A 盒子可就不容易了,他很容易在过程中出错。你如何教会孩子完成这一系列动作呢?总不能一直在他耳边喋喋不休的重复吧?
为了解决多层出错的问题,Hinton 和其他几个人找到了一种解决方案(也可以说是改进了一个老方案)。当时还是 70 年代末、80 年代初,这一方案重新点燃了学界对神经网络的兴趣。“人们对此非常兴奋,”Hinton 说道。“但其实我们错估了其他人的兴趣。”很快,Hinton 这样的人又成了学界眼中的怪人和神秘主义者。
不过,在哲学家和心理学家那里,Hinton 的想法依然很有市场,他们将其称之为“连接主义”或“并行分布式处理”。虽然加拿大政府一直对 Hinton 全力支持,但它们也难不出计算能力足够前行的计算机和数据。“我们只能自我安慰,一旦时机成熟,我们就能做出点什么。”Hinton 说道。
3. 详解深度学习
当皮查伊抬出“AI 为先”的概念时,他可不止是在描述公司的商业战略,也同时把这一长久以来都没有起到多大作用的概念扔给了公司。皮查伊大方的资源分配让 Dean 和 Hinton 这样的专家能获得有力支持,他们有足够的数据和计算能力来推进自己的研究。从科学角度来说,人的大脑拥有 1000 亿个神经元,而每个神经元则会与其他 1 万个神经元连在一起,这就意味着神经突触的数量在 100 万亿到 1000 万亿之间。如果以上世纪 40 年代的标准来看,想复制这样的复杂网络根本是不可能的。我们离真正的神经网络还差着十万八千里。不过,谷歌持续的投资至少让我们通过人工神经网络实现了小白鼠大脑部分切片的功能。
要理解规模的重要性,你就得理解更多相关细节,即机器究竟对数据作做了什么?我们对 AI 的恐惧,大都因为觉得它们会像一个神秘的学者一般在图书馆挖掘学习知识,然后,从前只会玩曲别针的机器或许有一天能像对待一只蚂蚁或者莴苣一样轻松碾死人类。
不过,AI 可不是这样工作的,它们每天只是在搜索并寻找共同点。开始其模式非常简单,随后逐渐深化。现在最大的危险则在于我们是否最初就给它灌输了一些包含偏见的信息。
假设你想用老式的符号化 AI 模型打造一个猫咪识别程序,首先就必须花大量时间给机器灌输到底什么是“猫”。随后在对照片进行学习时,程序会遵循一大堆“如果”,并通过这些限制条件来识别猫咪。不过,如果你拿来一张苏格兰折耳猫的图片,它就会在耳朵这一“如果”上卡住,符号化 AI 根本就不认这种耳朵出现变化的猫咪,这样的识别水平连蹒跚学步的小孩都不如。
不过,换到神经网络的话,就根本无需猫的定义这个限制了,二进制会处理一切。得到指令后,神经网络会自动对相互连接的交换机进行调教,将输入的数据变成准确的输出数据。训练时用到的数据越多,得到的输出数据就越准确,一旦整个训练过称完成,神经网络就能稳定的处理数据并做出可靠的预测,这就是所谓的“监督式学习”。
不过,需要注意的是,神经网络有一定的概率性,因此它并非万金油,不能通吃所有任务。所以,如果它将狗狗识别成了猫咪,无需惊慌。但如果将这一情景换到自动驾驶领域,我们可就要惊慌了,因为 0.1% 的错误率可能就会要了你的命。
此外,由于监督式学习是基于标记过的数据的,因此人类依然会扮演重要的角色,如果在输入时做了错误的分类,未来在情境识别时神经网络可能就会出错。
4. 猫咪识别论文
谷歌大脑部门推进神速,一年多的时间,它们就成功让机器掌握了一岁小孩的技能。随后,它们的部门成功从谷歌 X 实验室“毕业”,升级成高一级的研究机构。不过,当时的谷歌大脑团队依然只有不到 10 个工作人员,对于未来,他们也只有一个较为模糊的概念。
不过,就像人一样,在学会了形状并开始认识皮球这一事物后,我们会为之满足一段时间。但最终,人类会开始产生关于皮球的问题,这就是语言出现的原因。
在探索过程中,谷歌先整出了一篇关于猫的论文。这篇论文向我们展示了带有超过10亿个“突触”连接的神经网络,这比当时任何公开的神经网络模型都要大好几百倍,不过与人类的大脑相比,依然小了好几个数量级。这个神经网络能识别原始的、无标签的数据,并识别高难度的人类概念。谷歌大脑的研究者向神经网络展示了几百万帧的静态 YouTube视频,然后,神经网络的感觉中枢开始运转,分离出了一个稳定的模型。和所有的小孩一样,这一模型能毫不犹豫地识别出猫的脸。
这一神经网络在识别猫脸前可没有让研究人员“开小灶”,它对猫的定义和知识一无所知。神经网络直接与现实世界交互并且抓住了“猫”这一概念。(研究者发现,这一神经网络就好像核磁共振成像一般,猫的脸部的阴影会激活人工神经元)。
其实,大多数的机器学习都受限于标签数据的数量,但该论文却显示,神经网络同样能识别原始的无标签数据,有时甚至是人类自身都还没建立起知识的数据。这一成果并不只是让神经网络识别猫脸这么简单,它对于人工智能的整体发展都有很大意义。
这篇论文的第一作者是 Quoc Le 。这位大学者个头不高,说话轻声细语但语速极快。Quoc Le 从小在越南长大,父母都是普通农民,小时候家里甚至连电都没有。不过,他在童年时就显示出了超强的数学天赋。20 世纪 90 年代 Quoc Le 还在上学时,就曾经尝试开发聊天机器人。他在想,这会有多困难呢?现实告诉他,开发聊天机器人确实不是个轻松活。
毕业后,Quoc Le 离开了越南到澳大利亚的堪培拉大学学习,主要研究计算机视觉一类的 AI 任务。当时,这一领域使用的方法,是要给机器填入大量的关于事物的定义性概念,这让他觉得像是在作弊。Le 当时并不清楚,世界上同样有很多计算机科学家跟他有类似的想法,他们都认为机器是能够从零开始学习的。
2006年,Le 在德国的马克斯普朗克研究所生物控制部门任职。在那里的一个读书小组中,他读到了 Geoffrey Hinton 的两篇论文,他觉得自己的任督二脉瞬间被打通了。
“当时这两篇论文引起了很大的争议”,他说道。“非常非常大”。随后,他看了一眼自己画在白板上曲线,又轻声重复到,“我从来没有见到过那么大的争议。”
他清楚的记得,当时自己在阅读小组中站了起来并表示:”这就是未来。“当时,这并不是一个很受欢迎的决定。他远在澳大利亚的导师还曾写邮件问他:“你为什么做了这个决定?”
“当时我没想好怎么回答,”Le 说道。“我只是非常好奇。它们提出了一个很成功的范式,但老实说,我只是对这一范式感到好奇。2006 年时,这样的观点非常稀有。”随后,Le 转到斯坦福并加入了吴恩达的团队,随后他开始顺着 Hinton 的道路向前迈进。“2010 年年底,我已经非常确信会有大事发生了。”
随后,Le 到伦敦进行实习,而关于猫的那篇论文,就是在这一段时间打下的基础。在一个简单的层面上,Le 想看看计算机是否可以被训练,并实现对给定图像绝对必要信息的识别。他给神经网络输入了一个他从 YouTube 采集的静态片段。随后他告诉神经网络丢弃图像中包含的一些信息。神经网络随后抛弃了一些信息,最初是随机的。接着他告诉计算机:“刚才是开玩笑,现在重新创建初始图像,你只需根据你保留的信息进行显示就行。这种要求就像他要求计算机找到一种方法来“总结”图像,然后从摘要再回溯到最初的图像。如果摘要是基于不相关的数据,如天空的颜色,而不是胡须,计算机就不能执行完整的重建。
计算机的表现就像是原始人,他们对于剑齿虎的印象是在逃跑过程中建立的。Le 的神经网络与前人不同,它需要进行一次一次又一次的尝试。从数学的层面上来说,它每一次都会选择对不同的信息进行优化,然后表现会越来越好。
这样看来, 神经网络就是一个黑箱,它确实生成了某种范式,但人类很难从外部对其进行观察和理解。
关于猫的论文虽然让 Le 声名鹊起,但他自己并未感到自己掌握了业界的话语权。不过,他感受到了一种动力,未来的研究要跟他早年开发的聊天机器人联系在一起。在发表那篇著名论文后,他意识到,如果你能让一个神经网络对照片进行总结,你也可以让它对一些句子进行总结。在接下来的两年中,这些想法一直在 Le 和他在谷歌大脑的同事 Thomas Mikolov 大脑中萦绕。
有段时间,谷歌大脑团队由于发展过快甚至占领了高管的办公室。随后,管理处还专门发邮件让他们不要在公司 CEO 办公室门口的沙发上睡觉。
在谈到那位“同路者” Mikolov 时,Le 神情有些变化,但总是不断提起他的名字和两人之间的合作。后来才知道,原来 Mikolov 已经去了谷歌的对手 Facebook。
2012 年时的谷歌大脑团队
在这段时间里,他们试图搭建出新的神经网络架构,不但能应付简单的静态图片分类,还能搞定更为复杂的任务,如语言或音乐。他们用到的理念上世纪 90 年代就诞生了,Le 和他的同事们专门回溯了那些长期被忽视的概念,一边找寻那么被忽略的闪光点。
他们知道,一旦你建立了一个具有基本语言预测能力的设施,你就可以继续做其他各种智能的事情, 比如预测一个合适的电子邮件回复,或智能的预测一个谈话的过程。这样你就可以侧重于那种从表面看起来很像思维的能力。
本文为雷锋网(公众号:雷锋网)编译的第二部分,敬请期待后续的第三部分。
Via. New York Times
【招聘】雷锋网坚持在人工智能、无人驾驶、VR/AR、Fintech、未来医疗等领域第一时间提供海外科技动态与资讯。我们需要若干关注国际新闻、具有一定的科技新闻选题能力,翻译及写作能力优良的外翻编辑加入。
简历投递至 guoyixin@leiphone.com,工作地 深圳;
或投递至 wudexin@leiphone.com,工作地 北京。
相关文章:
谷歌大脑是如何炼成的:万字无删减版全解密(一)
雷锋网原创文章,未经授权禁止转载。详情见转载须知。