人工智能的核心算法——猫脸、对弈与暴力计算

威腾网 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

深度学习是学习人类做过（过去时）的事情的技术。

——皮埃罗·斯加鲁菲

自从阿兰·图灵在1950年发表论文《计算机器与智能》之后，“ 人工智能 ”首先开始在科学家和哲学家圈子中流行开来。并分化为两个流派，一个是以二进制和数理知识为基础的逻辑派，另一个是以神经元突触的物理层面为基础的神经网络学派。

随着计算机硬件技术的指数级增长，逻辑派逐渐式微，而神经网络学派不断兴起。

在硅谷进行了30年人工智能研究的皮埃罗认为，时至今日，人工智能领域的主流技术，在本质上仍然是图灵机的架构，经过几十年的发展，其最大的变化是硬件速度与性能的提升，在算法逻辑上并没有根本性的革新与改变——将更多的高性能处理器连结起来，给了神经网络更大的空间来模拟大脑的思维。而不断降低的硬件价格和不断提升的硬件性能，也让暴力计算成为了最近比较流行的猫脸识别、AlphaGo等人工智能成果的基本算法。

尽管人们都在竭力吹捧人工智能，但在我看来，机器的“智能”程度甚至不及大多数的动物。最近，一项有关神经网络的实验被誉为举足轻重的成就—— 一台计算机经过120万张图片的训练最终成功地识别出了视频中的猫（至少好几次）。那么你知道老鼠学习认识猫需要多长时间吗？而且你要知道计算机采用的是目前可能最快的通信技术，而老鼠大脑中的神经元却依然沿用着老旧的化学信号方法。

神经网络最早的应用之一就是识别数字。60年过去了，我存款时，还经常遇到银行的ATM机无法识别支票上的金额的情况，但人却不费吹灰之力就能做到。雷·库兹韦尔因为发明了“光学字符识别”（OCR）技术获得盛赞（言过其实），这项技术可以追溯到20世纪50年代a。即使购买最昂贵的OCR软件，并将它用于最简单的场景——识别书籍或杂志上排版最为规则的页面，这些软件也可能会犯下一些人绝对不会犯的错误。然而，更有意思的是，你将页面稍微折一个角，再让软件试着识别：人仍然可以顺利地读取文本，但是市场上那些最先进的OCR软件可能会因此“发疯”。

出于同样的原因，目前能够读取潦草的手写字体的机器尚不存在，尽管20世纪90年代带有手写识别功能的设备就已经面世（GO公司的PenPoint，苹果公司的Newton）。大多数人甚至不知道他们的平板电脑或智能手机也具备这样的功能：因为错误百出，鲜有人问津这个功能。然而，人类（甚至不那么聪明的人）通常却可以不费吹灰之力甚至毫不费力地阅读其他人的手写体。

识别技术中进步最为显著的当属视觉识别和语音识别。2014年，李飞飞根据其研究的算法生成自然语言，能够让机器描述诸如“公园里一群人在玩飞盘”等画面。这主要基于大型图片数据集及对其描述的语句。而在20世纪80年代，在当时的计算机硬件条件下，用如此巨大的数据集来训练神经网络根本不可能实现。即使现在计算机坐拥“暴力计算能力”，这项成果乍听起来还是的确让人觉得不可思议（机器的算法甚至能识别飞盘），但实际上，这些成果仍然与人类的表现相去甚远：我们能很容易地识别那些人是不是年轻人以及许多其他细节。2015年，谷歌的彼得·诺维格（Peter Norvig）在斯坦福举行的L.A.S.T.节上向人们展示了一些有趣的图片集，全是机器因为缺乏常识而将其进行了错误标记。

我们的四周经常充斥着机器人胜任各种人类工作的报道，只是大部分的成果都徒劳无功。2013年4月，美国国家航空航天局（NASA）行星科学家克里斯·麦凯（Chris McKay）在与我的交谈中，对目前正在进行的无人火星探测任务评价道：“好奇号在200天的探测中完成的任务，一个人类专业研究者只需要一个下午就可以完成。”而好奇号已经是人类有史以来制造的最为先进的机器人探险家了。

现在“深度学习”人工智能领域的研究内容很简单，就是罗列大量的数字进行运算。这是一种很聪明的大数据集的处理方法，由此可以为数据集分类。但这种方法无需通过颠覆性模式创新来实现，只要提高计算能力即可。

2011年，由吴恩达创立的“谷歌大脑”（Google Brain）项目正是这种方法应用的最典型例子。2012年6月，谷歌与斯坦福大学组成的联合研究组利用16000台计算机组成了包含十亿个连接的神经网络，然后将它部署到互联网，使它通过观看数百万段YouTube视频学习识别猫。如果放到30年前，以当时计算机的成本、体积和速度，几乎没有人会考虑制造这样的一个系统。从那时发展到现在，变化最大的恐怕就是现在的人工智能领域的科学家可以利用成千上万台强大的计算机来完成他们想要实现的东西。而归根到底这只能算是一种暴力计算方式，复杂性很低或者说根本没有复杂性。它是否能体现人类思维真正的运行方式还有待商榷。16000台世界上最快的计算机、耗费数月时间来识别一只猫，我们理应对此扼腕叹息。其实这是大脑还未发育成熟的小猫在一秒钟内就能做到的事情。假如那16000台计算机能够模拟只有302个神经元且突触数目不超过5000的线虫大脑的话，还能使我感到些许的宽慰，因为就算是这种级别的大脑，也能相当精确地识别出很多非常有趣的事物。

人类大脑每小时大约消耗20瓦能量。我估计以AlphaGo 1920块处理器以及280块图形处理器的配置，每小时的耗能可以达到440千瓦的水平（这其中还不包括训练过程中消耗掉的能量）。但除了下围棋，AlphaGo还能做些什么？答案是什么事都做不了。而人类除了打游戏之外，还能完成做饭、洗车等无数的事情。AlphaGo消耗440千瓦能量只能完成一件事，而人类只消耗20 瓦能量则能做无限多的事情。如果一个人使用比你多20000倍的资源，却仅仅做了一件事，你到底该怎样定义这类人？所以说AlphaGo所做的事情只能被称为“愚蠢”而非“智能”。如果设定人和AlphaGo都只能消耗20瓦能量，试想一下谁会赢。如果机器需要消耗440千瓦才能下围棋，那么完成其他那些围棋大师只靠自身大脑就能完成的事情，譬如开车、做饭、公园慢跑、阅读新闻、与朋友聊文学等，将耗费多少能量？假如机器达到与人类水平相当的能力，需要的机器数量会非常惊人，耗费能量的数量级可能会超过各国能耗之和——15万亿瓦，我们也许得搭上地球上几乎所有的材料，才能制造出这么多的机器。

暴力计算（是指依靠高性能硬件设备穷尽所有可能的简单算法）目前是统治人工智能领域的范式之一。毕竟通过数百万网页的索引，搜索引擎能够为绝大多数问题找到答案（甚至是那些“如何做……”的问题），这是任何专家系统都无法企及的结果。

人们不禁会想，对于20世纪60年代的科学界来说，当时那些缓慢笨重的计算机又何尝不是一种幸事，因为最起码那些古老的机器会迫使计算机科学家们开拓创造新的模型，而不是像现在这样，只会一味地让高速计算机啃嚼数字，直至发现最终的解决办法。

约翰·麦卡锡的那些抱怨不无道理——一旦人工智能解决了问题，世界就不再把它当做“人工智能”了。不过他没有意识到其中的原因：到目前为止，无论何时人工智能解决了一个问题（例如，在围棋比赛中战胜人类大师），人们都会发现这种解决方法并没有任何特别之处，只是在高速计算机上进行了非常复杂的数学运算罢了。如果1 + 1 = 2不是人工智能，那么围棋对弈也同样不属于人工智能的范畴。人工智能现在已经成为“在超级计算机上运行计算密集型程序”的代名词。我们固然会对上述结果惊叹，但我们不会简单地因为它与人类智能有所不同，就把它当做人工智能。人工智能学科的名称本身带有一定的误导性，但这也不能怪我们。