阿尔法围棋与深蓝不同之处
纽约时报发表文章称,“阿尔法围棋”这个由谷歌旗下“深层思维”公司创建的人工智能系统,在人机围棋大赛中以四比一的成绩击败了围棋冠军李世石。这场人机大赛究竟重要在哪里?毕竟1997年国际象棋冠军加里·卡斯帕罗夫就败在了国际商用机器公司的“深蓝”计算机手下。那么为何说“阿尔法围棋”的胜利具有特别重要的意义呢?
据美国《纽约时报》网站3月16日文章称,和国际象棋一样,围棋是高度复杂的战略游戏,无法依靠机会和运气取胜。然而和象棋不同的是,没人能解释高段位围棋该如何下。事实上,甚至连围棋大师都无法完全搞懂自己为什么会下得一手好棋。从驾车到辨认面孔,这种不自知是存在于人类诸多能力中的一种普遍现象。英国哲学家、科学家迈克尔·波拉尼描绘这种奇异的状态时说:“我们知道的要比我们能表达的多。”人们将这种现象称为“波拉尼的悖论”。
文章称,“波拉尼的悖论”并没有妨碍人民使用电脑来完成一些复杂工作。这些活动的编程需要极高的精确度,以命令电脑具体该做什么。而给电脑编程的老方法在应用方面非常受限,在很多领域都行不通。
“深蓝”之所以能够有超人的绝佳表现,几乎纯粹是靠运算能力:它被输入了数百万个国际象棋案例,因此能在众多可能性中进行筛选,从而确定下一步棋的最佳位置。然而围棋落子的可能性要多得多,即便是运算速度最快的电脑都无法模拟哪怕其中一小部分。
文章称,“阿尔法围棋”生动地诠释了新方法的威力。这个方法是创建一个几乎完全靠自学,并通过观察成功与失败案例来掌握得胜技巧的系统。
“阿尔法围棋”确实使用了模拟的方式和传统搜索算法来帮它下了几步棋,但真正的突破则在于它能够克服“波拉尼的悖论”。之所以能做到这点,是因为它既能通过具体案例,也能通过自身经验来得出决胜战略。这些案例取材于2500年围棋史上出自围棋大师之手的无数经典棋局。为了弄清这些棋局中蕴含的决胜策略,系统使用了一种名为“深层学习”的超凡方法,能够梳理出模式并一下抓住重点,而不会迷失在信息海洋中。
文章称,对于人脑来说,学习是一个在神经元之间形成并加强关联的过程。“深层学习”系统采取了类似方式,因而被称作“神经网络”。它在软件中建立起数十亿节点和关联,使用案例“训练集”来强化刺激(正在下的棋)和反应(下一步棋)间的关联,而后再对系统进行新刺激,并观察其反应。通过另一种名叫“强化学习”的技术,“阿尔法围棋”还和自己下了数百万盘棋,以记住有效走法和战略。
“深层学习”和“强化学习”并非新生事物,然而直到最近,我们才认清其威力以及其所能到达的境地。
文章称,虽然还有很长的路要走,但其意义深远。未来数年内,技术带来的变革将会波及人类经济。了解并解决科技迅速发展所带来的社会挑战仍是人类所面临的任务,没有机器能够替代我们完成。
以下为纽约时报的原文。
AlphaGo是怎么学会下围棋的
安德鲁·麦卡菲, 埃里克·布林约尔松
由Google的子公司DeepMind创建的人工智能系统AlphaGo,刚刚在一场围棋比赛中以四比一的成绩战胜了人类冠军李世石(Lee Se-dol)。此事有何重大意义?毕竟在1997年IBM深蓝(Deep Blue)击败加里·卡斯帕罗夫(Garry Kasparov)后,电脑已经在国际象棋上超越了人类。为什么要对AlphaGo的胜利大惊小怪呢?
和国际象棋一样,围棋也是一种高度复杂的策略性游戏,不可能靠巧合和运气取胜。两名棋手轮番将黑色或白色的棋子落在纵横19道线的网格棋盘上;一旦棋子的四面被另一色棋子包围,就要从棋盘上提走,最终在棋盘上留下棋子多的那一方获胜。
然而和国际象棋不一样的是,没有人能解释顶尖水平的围棋是怎么下的。我们发现,顶级棋手本人也无法解释他们为什么下得那么好。人类的许多能力中存在这样的不自知,从在车流中驾驶汽车,到辨识一张面孔。对于这一怪象,哲学家、科学家迈克尔·波兰尼(Michael Polanyi)有精彩的概括,他说,“我们知道的,比我们可言说的多。”这种现象后来就被称为“波兰尼悖论”。
波兰尼悖论并没有阻止我们用电脑完成一些复杂的工作,比如处理工资单、优化航班安排、转送电话信号和计算税单。然而,任何一个写过传统电脑程序的人都会告诉你,要想将这些事务自动化,必须极度缜密地向电脑解释要它做什么。
这样的电脑编程方式是有很大局限的;在很多领域无法应用,比如我们知道但不可言说的围棋,或者对照片中寻常物品的识别、人类语言间的转译和疾病的诊断等——多年来,基于规则的编程方法在这些事务上几无建树。
“深蓝”几乎全凭强大的计算力实现了超人表现:它吸收了数百万份棋局实例,在可能选项中搜索最佳的走法。问题是围棋的可能走法比宇宙间的原子数还多,即使最快的电脑也只能模拟微不足道的一小部分。更糟的是,我们甚至说不清该从哪一步入手进行探索。
这次有什么不同?AlphaGo的胜利清晰地呈现了一种新方法的威力,这种方法并不是将聪明的策略编入电脑中,而是建造了一个能学习制胜策略的系统,系统在几乎完全自主的情况下,通过观看胜负实例来学习。
由于这些系统并不依赖人类对这项工作的已有知识,即使我们知道的比可言说的更多,也不会对它构成限制。
AlphaGo的确会在某几步棋中使用模拟和传统搜索算法来辅助决策,但它真正的突破在于它有能力克服“波兰尼悖论”。它能通过实例和经验自行得出制胜策略。这些实例来自2500年围棋历史积累下来的高人对局。为了理解这些棋局的制胜策略,系统采用了一种叫做“深度学习”的方法,经证明这种方法可以对规律进行有效梳理,在大量信息中认清哪些是重要的东西。
在我们的大脑中,学习是神经元间形成和巩固关系的过程。深度学习系统采用的方法与此类似,以至于这种系统一度被称为“神经网络”。系统在软件中设置了数十亿个节点和连结,使用对弈实例组成的“训练集合”来强化刺激(一盘正在进行的围棋)和反应(下一步棋)的连结,然后让系统接收一次新的刺激,看看它的反应是什么。通过另一种叫做“强化学习”的技术,AlphaGo还和自己下了几百万盘棋,从而记住哪些走法和策略是有效的。
深度学习和强化学习都是早已提出的技术,但我们直到近年才意识到它们的威力,以及它们能走多远。事实上我们还是不清楚,但对这些技术的应用正取得飞速的进步,而且看不到终点在哪里。它们的应用很广泛,包括语音识别、信用卡欺诈侦测、放射学和病理学。机器现在已经可以识别面孔、驾驶汽车,它们都曾被波兰尼本人归为知道但不可言说的领域。
我们还有很长的路要走,但潜能是十分可观的。就像240年前詹姆斯·瓦特(James Watt)首次推出蒸汽机,技术推动的变革在未来几年里将会波及我们的整个经济,但不能保证每个人都能从中得到同等的好处。快速的技术进步带来的社会挑战,依然是需要我们去理解和应对的,这方面不能指望机器。
作者简介:安德鲁·麦卡菲(Andrew McAfee)是麻省理工学院(MIT)主任研究科学家,埃里克·布林约尔松(Erik Brynjolfsson)是MIT管理学教授。他们共同发起了麻省理工数字经济项目(Initiative on the Digital Economy),并合著有《第二次机器革命:数字化技术将如何改变我们的经济与社会》。