硅谷封面|控制AI之战:揭秘谷歌与DeepMind的爱恨情仇
划重点:
- 《经济学人》采访了25名消息人士,包括现任雇员、前任雇员以及投资者,揭示了这家明星AI公司及其创始人的故事,以及与谷歌之间的爱恨情仇。
- 作为交易的一部分,DeepMind拟定了协议,防止谷歌单方面控制该公司的知识产权。在收购前一年,双方签署了名为“道德与安全审查协议”的合同。
- AlphaGo堪称是经典的公关案例。自被谷歌收购以来,DeepMind曾多次制造奇迹,吸引了全球的关注。
- 在谷歌收购DeepMind五年后,谁控制DeepMind的问题已经到了紧要关头。哈萨比斯的股票可能值1亿英镑左右,Alphabet已将创始人获得分红的时间推迟了两年。
- 哈萨比斯始终把生活看作是一场游戏。他的职业生涯中有很大一部分用来开发游戏,他的大部分闲暇时间都花在了玩游戏上。
DeepMind联合创始人德米斯·哈萨比斯(Demis Hassabis)
【腾讯科技编者按】DeepMind是位于英国伦敦的人工智能(AI)初创企业,由AI程序师兼神经科学家德米斯·哈萨比斯(Demis Hassabis)等人联合创立。这家公司将机器学习和系统神经科学结合起来,建立强大的通用学习算法,并将其应用于模拟、健康、游戏开发等领域。自从被谷歌收购后,这家公司开发的程序先后在国际象棋、围棋等棋牌游戏中击败人类冠军,进而名声大噪。近日,经济学人集团旗下《1843》杂志撰文揭示了这家明星AI公司及其创始人的故事,以及与谷歌之间的爱恨情仇。
以下为腾讯科技(微信号ID:qqtech)编译整理的文章内容:
(提醒:本文近1万字,阅读全文大约需要15分钟。)
2010年8月的某个下午,在旧金山湾区边缘的一个会议厅里,34岁的伦敦人德米斯·哈萨比斯(Demis Hassabis)走上讲台。他显得有点儿小心翼翼,似乎在极力试图控制自己的神经,他咧着嘴笑了笑,并开始说:“今天我要讲的是以不同的方式构建……。”他突然停了下来,好像刚刚意识到他在大声说出自己的雄心壮志,然后才接着说“AGI”。
AGI的意思是“通用人工智能”,是一种假想的计算机程序,它可以执行相当于人类甚至超越人类智力水平的任务。AGI将能够完成独立任务,例如识别照片或翻译语言,这些都是我们当前手机和计算机上众多AI专注的焦点。但AGI也会加法、减法、下棋和讲法语,它还将理解物理论文、撰写小说、设计投资策略,并与陌生人进行愉快的交谈。AGI将监测核反应、管理电网和交通,并在其他方面毫不费力地取得成功。AGI将使当今最先进的AI看起来就像过时的计算器。
目前,人类是唯一能够尝试完成所有上述任务的智慧生物。但是人类智力受限于容纳大脑的头骨的大小,也受到身体所能提供的能量的限制。由于AGI将在计算机上运行,因此它不会受到这类限制,其智能将仅受可用处理器数量的限制。AGI可以从监测核反应开始。但很快,通过每秒消化比人类上万年理解的更多物理论文带来的知识,它将被用于发现新的能源。
相当于人类的智力水平,再加上计算机的速度和可扩展性,AGI将使目前似乎无法解决的问题迎刃而解。哈萨比斯表示,他预计AGI还将掌握“癌症、气候变化、能源、基因组学、宏观经济以及金融系统”等学科知识。
哈萨比斯发表演讲的会议被称为奇点峰会(Singularity Summit)。根据未来学家们的说法,“奇点”指的是AGI出现引发的最可能结果。因为AGI能够高速处理信息,所以它很快就会变得非常聪明。快速的自我改进周期将导致机器智能的爆炸性增长,使人类被“硅尘”窒息。由于这样的未来完全建立在未经检验的假设基础上,人们无法确认奇点到底是乌托邦还是地狱。
从演讲的题目来看,与会者倾向于“AGI可能成为救世主”的观点。这些演讲题目包括:“如何建立人造思维”、“AI防止衰老”、“替换我们的身体”以及“改变生与死之间的界限”等。相比之下,哈萨比斯的演讲题目显得平淡无奇,即“构建AGI的系统神经科学方法”(A Systems NeuroScience Approach To Building AGI)。
哈萨比斯在讲台和屏幕之间踱来踱去,语速很快。他穿着栗色的套头衫和白色的扣子衬衫,看起来就像个学生,但他瘦小的身材似乎蕴藏着无可比拟的才智。哈萨比斯解释说,到目前为止,科学家们已经从两个方向接近了AGI。第一被称为象征性AI,人类研究人员试图描述和编程能像人类那样思考的系统所需的所有规则。这种方法在20世纪80年代和90年代很流行,但并没有产生预期的结果。哈萨比斯认为,大脑的结构过于微妙,不能用这种方式来描述。
第二种方法是,研究人员试图以数字形式复制大脑的物理网络结构,这是非常有意义的。毕竟,大脑是人类智力的发源地。但哈萨比斯说,这些研究人员也被误导了,他们的任务实际上与绘制宇宙中的每颗恒星同样庞大。此外,这种方法关注的是大脑功能,本身就存在根本性错误,这就像试图通过拆开某台计算机并检查晶体管之间的相互作用来理解Microsoft Excel是如何工作的。
相反,哈萨比斯提出了中间立场:AGI应该从大脑处理信息的宏观方法中得到启发,而不是从物理系统或它在特定情况下应用的特定规则中获得灵感。换句话说,它应该专注于理解大脑的软件部分,而不是硬件功能。磁共振成像(FMRI)等新技术使人们在大脑活动时能够窥视其内部,从而开始使这种理解成为可能。他对听众说,最新的研究表明,大脑在睡眠时通过回放经验来学习,以便得出通用原则。AI研究人员应该仿效这种系统。
一个标志出现在哈萨比斯幻灯片的右下角,这是个蓝色的圆形漩涡。它下面印着两个封闭的单词——DeepMind,这是该公司首次被公开提及。哈萨比斯花了1年的时间试图获得奇点峰会的邀请,但他真正需要的是和资助这次会议的硅谷亿万富翁彼得·泰尔(Peter Thiel)会面,并希望获得后者的投资。
哈萨比斯从来没有说过他为何特别想要得到泰尔的支持。他通过发言人多次拒绝了记者的采访请求。最终记者采访了25名消息人士,包括现任雇员、前任雇员以及投资者。他们中的大多数人都保持匿名,因为他们没有被授权谈论公司的发展方向。但泰尔对AGI的热情比哈萨比斯更强烈。在2009年奇点峰会上的演讲中,泰尔曾说,他对未来最大的恐惧不是“机器人起义”,而是担心“奇点”会拖得太久才到来。世界需要新技术来抵御经济衰退。
DeepMind最终筹资到200万英镑,其中泰尔贡献了1.4万英镑。2014年1月,谷歌斥资6亿美元收购该公司时,泰尔和其他早期投资者的投资回报率达到5000%。
对许多创始人来说,这将是个圆满的结局。他们可以放慢脚步,甚至退一步,花更多的时间享受生活。但对哈萨比斯来说,谷歌的收购只是他追求AGI的目标又向前迈进一步。2013年的大部分时间里,他都在就这笔交易的条款进行谈判。DeepMind将作为独立于其新母公司的实体运营。它将获得谷歌提供所有的好处,如获得现金流和计算能力,但却不会失去控制权。
哈萨比斯原来认为,DeepMind将成为混合体:它将拥有创业公司的动力、最伟大大学的智慧,以及世界上最有价值公司之一提供的雄厚财力。每个要素都已到位,可以加速推动AGI的到来,并解决引发人类苦难的根源。
华裔血统,棋盘游戏样样精
哈萨比斯1976年出生于伦敦北部,父亲是希腊裔塞浦路斯人,母亲则是新加坡华人,他是三个兄弟姐妹中的长子。母亲在英国百货公司John Lewis工作,父亲经营着玩具店。四岁时看了父亲和叔叔下棋后,他在开始学下象棋。不到几个星期,他就可以与大人对阵。到13岁时,他已是世界同龄人中的第二优秀的棋手。八岁时,他在电脑上自学了编程。
哈萨比斯在1992年完成了高中课程,比普通人提前了两年。他在Bullfrog Productions公司找到了制作电子游戏的工作。哈萨比斯开发了《主题公园》(Theme Park),里面的玩家需要设计并经营虚拟游乐园。这款游戏取得了巨大成功,销售了1500万份拷贝,帮助打造了一种新的模拟游戏类型。在这种游戏中,目标不是击败对手,而是优化某个复杂系统(如企业或城市)的功能。
除了开发游戏外,哈萨比斯还擅长玩游戏。十几岁的时候,他经常参加棋类比赛,同时参加国际象棋、拼字游戏、扑克和双陆棋的比赛。1995年,哈萨比斯在剑桥大学学习计算机科学时,迷上了学生围棋锦标赛。围棋是一种古老的棋盘游戏,它比国际象棋复杂得多。要想成为大师,需要通过长期经验获得的直觉。没人知道哈萨比斯以前有没有玩过这种游戏。
首先,哈萨比斯赢得了初学者级别比赛冠军。然后,他击败了许多经验丰富的棋手。剑桥围棋大师查尔斯·马修斯(CharlesMatthews)是这项赛事的负责人,他回忆起专家级棋手被这名19岁新手狂殴时的震惊。马修斯随后将哈萨比斯收为弟子。
哈萨比斯的智慧和野心总是通过游戏表达出来。反过来,游戏又激发了他对智力的迷恋。当他反思自己在国际象棋上的表现时,他想知道计算机是否可以像他那样通过积累的经验来学习。游戏提供了现实世界无法比拟的学习环境:因为游戏是从现实世界中分离出来的,所以可以在不受干扰的情况下练习和有效地掌握它们。游戏速度加快:玩家在几天内建立起团体,并在几分钟内完成索姆河战役。
1997年夏天,哈萨比斯前往日本。那年五月,IBM的“深蓝”(Deep Blue)计算机击败了国际象棋世界冠军加里·卡斯帕罗夫(Garry Kasparov)。这是计算机首次在国际象棋比赛中击败特级大师。这场比赛吸引了全世界的关注,并引发了人们对计算机日益强大和潜在威胁的担忧。
当哈萨比斯遇到日本棋盘游戏大师Masahiko Fujuwarea时,他谈到了将他在战略游戏和AI领域的兴趣结合起来的计划:将来,他将开发出能击败最伟大人类围棋玩家的计算机程序。哈萨比斯有条不紊地对待他的事业。马修斯说:“在20岁的时候,哈萨比斯认为,在实现他想要的那种AI之前,某些东西必须到位,而且他有自己的计划。”
1998年,哈萨比斯创办了自己的游戏工作室,名为“长生不老药”(Elixir)。哈萨比斯专注于雄心勃勃的游戏——《共和国:革命》(Republic: The Revolution),这个一款复杂的政治模拟游戏。几年前,还在上学的时候,哈萨比斯就曾告诉他的朋友穆斯塔法·苏莱曼(Mustafa Suleyman),为了模拟复杂的动力学和解决最棘手的社会问题,世界需要大规模的模拟。现在,他试着在游戏中实现这个目标。
事实证明,实现哈萨比斯的抱负比预期的更难。Elixir工作室最终发布了精简版的游戏,获得的评论也不温不火。其他游戏失败了,比如邦德-恶棍模拟器《邪恶天才》(Evil Genius)。2005年4月,哈萨比斯关闭了Elixir。马修斯认为,哈萨比斯创立该公司只是为了获得管理经验。现在,哈萨比斯在开始寻找AGI之前,只缺乏一个关键的知识领域,即他需要了解人类的大脑。
2005年,哈萨比斯开始在伦敦大学学院(UCL)攻读神经科学博士学位。他发表了关于记忆和想象的著名研究。这篇被引用了1000多次的论文表明,健忘症患者很难想象新的经历,这表明记忆和创造心理形象之间存在联系。哈萨比斯正在获得开发AGI所需对大脑的理解。他的大部分工作回到了此前的问题,即人类的大脑是如何获得和保留概念和知识的?
才华横溢,现实中屡次碰壁
哈萨比斯于2010年11月15日正式创建了DeepMind。该公司当时的使命声明和现在一样,即“解决智力问题”,然后用它来解决其他所有问题。正如哈萨比斯在奇点峰会上所说的那样,这意味着将我们对大脑如何完成任务的理解转化为可以用同样的方法自学的软件。
哈萨比斯并没有假装科学已经完全理解了人类的思想,AGI的蓝图不能简单地从数百项神经科学研究中得出。但他自信地认为,已经拥有足够多知识的他应该可以开始AGI的构建工作。然而,他的信心再次受到现实的打击。我们仍然对大脑的实际功能知之甚少。2018年,澳大利亚研究人员对哈萨比斯的研究结果提出了质疑,认为其文章的统计数据很糟糕。这表明,DeepMind还有很长的路要走。
苏莱曼(Suleyman)和肖恩·勒格(Shane Legg)都是痴迷AGI的人,哈萨比斯在加州大学洛杉矶分校(UCL)认识了后者,他们三人是DeepMind的联合创始人。这家公司的声誉迅速提高,哈萨比斯才华横溢。DeepMind的前运营经理本·福克纳(Ben Faulkner)表示:“哈萨比斯有点儿像磁铁,能将其他人才吸附在其周围。”
许多新员工来自欧洲,这远远超出了谷歌和Facebook等硅谷巨头聚焦的目光,也许DeepMind最大的成就是早早地雇佣并留住了这些最聪明、最优秀的人才。这家公司在布卢姆斯伯里(Bloomsbury)罗素广场(Russell Square)的露台房屋阁楼上开设了门店,与伦敦大学学院隔街相望。
DeepMind关注的一种机器学习技术源于哈萨比斯对游戏和神经科学的双重痴迷,即强化学习。这样的程序可以收集有关其环境的信息,然后通过反复重播它的经验来从中学习,就像哈萨比斯在奇点峰会演讲中对睡眠中人类大脑活动的描述一样。
强化学习在计算机领域还处于起步阶段。这种程序显示的是虚拟环境,它只知道规则,例如模拟国际象棋或视频游戏。该程序包含至少一个被称为神经网络的组件,后者是由层层的计算结构组成的,这些结构通过筛选信息来识别特定的特征或策略。每一层都在不同的抽象级别上检查环境。
起初,这些网络的成功率很低,但重要的是,它们会不断从失败中积累经验。它们变得越来越老练,因为它们会尝试不同的策略,并在成功时得到奖励。如果程序移动了某个棋子,结果输掉了比赛,它就不会再犯同样的错误。AI的魅力很大程度上在于它执行重复任务的速度。
DeepMind的工作在2016年达到顶峰,当时这个团队构建了一个AI程序,它能使用强化学习和其他技术来玩围棋。2016年,名为AlphaGo的程序在首尔比赛中击败了世界围棋冠军,这个项目也引起了人们的惊讶。这台机器在2.8亿人注视下取得的胜利,比专家预测的早了十年。次年,AlphaGo的改良版击败了中国围棋冠军。
就像1997年的“深蓝”一样,AlphaGo改变了人们对人类所取得成就的看法。人类冠军是这个星球上最聪明的人,然而他们却不再站在智慧的顶峰。在向日本棋盘游戏大师Masahiko Fujuwarea吐露野心20年后,哈萨比斯终于实现了其愿望。哈萨比斯说,这场比赛让他几乎喜极而泣。传统上,围棋学徒会通过在比赛中击败老师来回报他们的栽培。哈萨比斯以击败人类冠军的方式,来感谢马修斯的教导。
“深蓝”通过强大的计算能力和速度赢得了胜利,但AlphaGo的风格看起来更有艺术性,几乎与人类风格毫无差异。DeepMind的优雅和老练,以及其计算能力的超越性,似乎都在表明,DeepMind在寻找能够在治疗疾病和管理城市的程序方面比竞争对手更胜一筹。
谷歌收购,极力保持独立性
哈萨比斯总是在说,DeepMind会把世界变得更好。但AGI有很大不确定性。如果它真的诞生了,我们却不知道它是利他的还是邪恶的,或者它是否会屈服于人类的控制。即使它能被控制,又有谁来掌控呢?
从一开始,哈萨比斯就试图保护DeepMind的独立性。他始终坚持让DeepMind留在伦敦。当谷歌在2014年收购该公司时,控制权问题变得更加紧迫。哈萨比斯不需要把DeepMind卖给谷歌,该公司手头有充足的现金,他已经勾画出商业模式,公司将在这种模式下设计游戏,以便为研究提供资金。
虽然谷歌的财务实力很有吸引力,但和许多创始人一样,哈萨比斯也不愿交出自己耗费心血培育的这家公司。作为交易的一部分,DeepMind拟定了协议,防止谷歌单方面控制该公司的知识产权。据知情人士透露,在收购前一年,双方签署了名为“道德与安全审查协议”的合同。该协议是由伦敦的资深大律师起草的,此前未被报道过。
“审查协议”将对DeepMind的AGI核心技术(无论何时创建)的控制权交给名为道德委员会(Ethics Board)的管理小组。据消息人士称,建立道德委员会非但不是谷歌的表面让步,还为DeepMind提供了坚实的法律支持,以保持对其最有价值和潜在最危险技术的控制权。该小组成员的名字尚未公布,但与DeepMind和谷歌关系密切的消息人士表示,DeepMind的三名创始人都委员会成员。
哈萨比斯也可以通过其他方式决定DeepMind的命运,那便是忠诚。许多前任和现任员工表示,哈萨比斯设定的研究议程是DeepMind最大的优势之一。他的议程吸引了数以百计世界上最有才华的专家,他们不惜放弃自己的学术研究,心甘情愿地加入他的团队工作。
DeepMind在巴黎和艾伯塔省设有分公司。许多员工更喜欢哈萨比斯及其提出的使命,而不是其母公司的抱负。只要哈萨比斯继续拥有他们的个人忠诚,他就对DeepMind的唯一股东拥有相当大的制约力。对谷歌来说,让DeepMind的AI人才通过代理为其工作,比让这些人最终到Facebook或苹果工作要好得多。
DeepMind还有其他制约力量,即公众影响力,但这需要其不断增加曝光率。这家公司在这方面做得很好,AlphaGo堪称是经典的公关案例。自被谷歌收购以来,DeepMind曾多次制造奇迹,吸引了全球的关注。
比如,一款软件可以在眼球扫描中发现黄斑变性的标志。另一个程序使用与AlphaGo类似的体系结构从零开始学习国际象棋,在与自己对战9个小时后成为有史以来最伟大的棋手。2018年12月,名为AlphaFold的计划证明,在从蛋白质复合物的清单中预测蛋白质的三维结构方面,它比竞争对手更准确,这可能为治疗帕金森氏症和阿尔茨海默氏症等疾病铺平道路。
DeepMind尤其为自己开发的算法感到自豪,这些算法计算出了冷却谷歌数据中心的最有效方法,这些数据中心估计包含250万台计算机服务器。DeepMind在2016年表示,他们已经将谷歌的能源支出削减了40%。但有些内部人士表示,这种吹嘘言过其实。早在DeepMind出现之前,谷歌就始终在使用算法来优化其数据中心。
谷歌的一名员工表示:“他们只想拥有些公关资本,这样他们就可以在谷歌母公司Alphabet中宣称做出了贡献,并以此获得增值筹码。”Alphabet为这类服务向DeepMind支付了大笔钱。2017年,DeepMind向Alphabet公司收取了5400万英镑相关费用。与DeepMind耗费的间接费用相比,这一数字简直不值一提。该公司当年仅在员工身上就花费了2亿英镑。总体而言,DeepMind在2017年亏损了2.82亿英镑。
对于现金充裕的科技巨头来说,这只是微不足道的损失。但其他亏损的Alphabet子公司吸引了Alphabet吝啬的首席财务官露丝·波拉特(RuthPorat)的注意。比如建立互联网服务提供商的努力Google Fiber,在很明显需要几十年才能获得投资回报后被搁置了下来。AI研究人员私下想知道DeepMind是否能继续保持独立地位。
谨小慎微,与谷歌分歧加大
DeepMind在推进AI进步方面相当谨慎,这是其一贯的管理战略,表明其获得当前的声誉价值实至名归。在谷歌被指控侵犯用户隐私和传播虚假新闻的时候,这一点尤其重要。DeepMind还幸运地在母公司最高层有自己的同情者,谷歌联合创始人、Alphabet首席执行官即拉里·佩奇(LarryPage)。佩奇是哈萨比斯最接近的老板,佩奇的父亲卡尔(Carl)曾在20世纪60年代研究神经网络。佩奇说,在他早期的职业生涯中,他创建谷歌只是为了创建一家AI公司。
DeepMind对媒体管理控制非常严格,并不符合公司普遍存在的学术精神。许多研究人员抱怨说,他们的研究成果很难发表:在向相关会议和期刊提交工作成果之前,必须经过多层内部批准。DeepMind认为,它需要谨慎行事,以避免使用AGI的前景吓到公众。但过分保密可能会开始破坏学术氛围,削弱员工的忠诚度。
在谷歌收购DeepMind五年后,谁控制DeepMind的问题已经到了紧要关头。该公司的创始人和早期雇员正在接近盈利,他们可以带着从收购中获得的经济补偿离开,哈萨比斯的股票可能值1亿英镑左右。但一位与该公司关系密切的消息人士表示,Alphabet已将创始人获得分红的时间推迟了两年。鉴于哈萨比斯坚持不懈的专注,他不太可能跳槽。他之所以对钱感兴趣,只是因为它能帮助他完成毕生的努力。
但有些同事已经离开。自2019年初以来,已有三名AI工程师离开DeepMind。世界上最著名的安全工程师之一本·劳里(Ben Laurie)现在又回到了他以前的雇主谷歌那里。不过离开的人很少,毕竟DeepMind也提供了如此令人兴奋的任务和丰厚的薪酬,所以很少有人离开。到目前为止,谷歌还没有对DeepMind进行过多的干预。但最近发生的一起事件引发了人们的担忧,即该公司能维持多长时间的独立性。
DeepMind始终计划使用AI来改善医疗保健。2016年2月,该公司成立了新的部门DeepMind Health,由该公司的联合创始人穆斯塔法·苏莱曼(Mustafa Suleyman)领导。苏莱曼的母亲曾是NHS护士,他希望创建名为Streams的程序,在病人健康恶化时向医生发出警告。
DeepMind将获得基于绩效的费用。因为这项工作需要接触到关于病人的敏感信息,苏莱曼建立了独立审查小组(IRP),该小组由英国优秀的医疗保健和技术人员组成。DeepMind谨慎行事是明智的。英国信息专员随后发现,其中一家合作医院在处理病人数据时违反了法律。然而,到2017年底,苏莱曼已经与四家大型NHS医院签署了协议。
2018年11月8日,谷歌报告成立了自己的医疗保健部门Google Health。五天后,谷歌宣布DeepMind Health将被纳入其母公司的工作。DeepMind似乎事先没有收到警告。根据《自由信息法案》获得的信息显示,该公司只向其伙伴医院发出了三天的更改通知。DeepMind拒绝透露有关合并讨论是什么时候开始的,但表示通知与公开声明之间的短时间差距符合透明规则。
苏莱曼在2016年写道:“在任何阶段,患者数据都不会与谷歌的账户、产品或服务链接关联。”他的承诺似乎被打破了。在就此问题受到质疑时,DeepMind说:“在这一阶段,我们的合同没有转移到谷歌。Streams成为谷歌服务并不意味着患者数据也被提供给其他谷歌产品或服务。”
谷歌的兼并激怒了DeepMind Health的员工。据熟悉该公司健康团队的人士说,更多的员工计划在合并完成后离开公司。独立审查小组(IRP)成员迈克·布莱肯(Mike Bracken)已经离开。据多位知情人士透露,布莱肯于2017年12月辞职,原因是担心审核小组更多是为了装门面,而不是真正执行监督任务。
当布莱肯问苏莱曼是否会赋予IRP成员非执行董事的问责和治理权力时,苏莱曼对此嗤之以鼻。IRP主席朱利安·赫珀特(Julian Huppert)辩称,该小组提供了比布莱肯预期的“更激进的治理权限”,成员能够公开发言,不受保密协议的约束。
这段插曲表明,DeepMind运营的外围部分很容易受到谷歌的影响。DeepMind在一份声明中说:“我们都同意,在增加资源的情况下,将这些努力集中起来是有意义的。”这就引出了一个问题:谷歌是否会将同样的逻辑应用到DeepMind的AGI工作中。
前路漫漫,现实与技术挑战并存
从长远来看,DeepMind看上去已经迈出了很大一步。该公司已经开发出软件,可以学习在超人水平上执行任务。哈萨比斯经常以雅达利游戏机上的电子游戏《Breakout》为例,玩家控制球棒在屏幕底部水平移动,用它将球反弹到悬浮在其上方的方块,并在撞击时将其摧毁。
当所有的方块都被抹去时,玩家就赢了。如果玩家用球棒打偏了球,她就输了。在没有人类的干预下,DeepMind的程序不仅学会了玩游戏,而且还研究出了如何将球轰到方块后面的空间,以及如何利用反弹来突破更多的方。哈萨比斯说,这证明了强化学习的力量和DeepMind计算机程序的超自然能力。
这是个令人印象深刻的演示。但哈萨比斯漏掉了几件事。第一,如果虚拟球棒被移动到更高的位置,程序就会失败。DeepMind的程序所学到的技能是如此有限,以至于它甚至不能对环境的微小变化做出反应。至少在没有数千轮强化学习的情况下,它无法对此做出应对。
但世界恰好处于这样善变的模式。对于诊断智能来说,没有两个身体器官是完全一样的。对于机械智能来说,没有两个引擎可以同样的方式进行调谐。因此,将在虚拟空间中完善的程序发布道现实世界面临着重重挑战。
DeepMind很少提及的第二个警告是,虚拟环境中的成功取决于奖励功能的存在,这是允许软件衡量其进度的信号。该程序了解到,发射小球到方块上方的空间使其多次反弹能够使得分上升。DeepMind与AlphaGo合作的大部分工作是构建能与如此复杂的游戏兼容的奖励函数。
不幸的是,现实世界并不提供简单的回报,进步很少用单一标准来衡量。即使在这些措施存在的地方,政治挑战也会使问题复杂化。将气候健康的奖励信号(大气中二氧化碳颗粒的数量)和石油公司的奖励信号(股价)相协调,需要满足许多互相矛盾的动机。奖励信号往往很弱。人脑在完成任务的过程中,很少会收到关于任务成功的明确反馈。
DeepMind通过使用大量的计算机能力找到了解决这个问题的方法。AlphaGo需要数千年的人类游戏时间来学习任何东西。许多AI思想家怀疑,对于报酬较低的任务,这种解决方案是不可持续的。DeepMind承认存在这样的模棱两可之处。该公司最近专注于战略电脑游戏《星际争霸2》(StarCraft 2)。在游戏早期做出的决定会在稍后产生影响,这更接近于许多现实世界任务所特有的那种令人费解和延迟的反馈。
今年1月,DeepMind软件在一次演示中击败了世界上许多顶尖的人类游戏玩家,虽然受到了严重的限制,但其表现仍然令人印象深刻。DeepMind的软件也开始学习奖励功能,比如遵循人类监工的反馈。但是,将人类的指令放入循环中,可能会失去纯粹计算机处理所提供的规模和速度奖励。
由于严格的保密协议,DeepMind和谷歌现任、前任研究人员要求保持匿名,他们也对DeepMind能否通过这些方法接触到AGI表示怀疑。对这些人来说,专注于在模拟环境中获得高性能使得奖励信号问题很难解决。然而,这种方法是DeepMind的核心。它有个内部排行榜,显示来自竞争对手团队的程序争夺对虚拟域的控制权。
哈萨比斯始终把生活看作是一场游戏。他的职业生涯中有很大一部分用来开发游戏,他的大部分闲暇时间都花在了玩游戏上。在DeepMind,它们是哈萨比斯为开发AGI而选择的工具。就像他的软件一样,哈萨比斯只能从他的经验中学习。
人们对AGI的追求可能最终会迷失方向,因为它发明了许多有用的医疗技术,并超过了世界上最伟大的棋盘游戏玩家。这些都堪称是重要的成就,但不是哈萨比斯所渴望的。但他仍有可能帮助AGI诞生,就在谷歌的眼皮底下,但却不受谷歌的控制。如果这样做,哈萨比斯将赢得最艰难的比赛。(腾讯科技审校/金鹿)
「硅谷封面」深度好文一次看个够
「硅谷封面」系列是为科技圈大咖访谈、重磅研究报告和大公司深度调查等汇总的栏目,旨在为科技资讯爱好者提供最有思想深度的优质好文。