拥有洞察力 震动国际象棋世界 解读AlphaZero的新进展
【网易智能讯12月28日消息】本月初,谷歌母公司Alphabet旗下人工智能公司DeepMind的研究人员发表了一篇关于人工智能前沿技术应用于国际象棋的论文。
一年前的 2017年12月5日,这个团队发布的AlphaZero震惊了国际象棋世界。AlphaZero是一种机器学习算法,其不仅会下国际象棋,还掌握了日本将军棋(shogi)和围棋的玩法。起初算法对游戏的基本规则一无所知。 但 AlphaZero与自己进行 了 数百万次 的 对抗学习,并从错误中吸取教训。几个小时内,这个算法 就 成为了世界上最好的 棋类 玩家。
拥有洞察力!AlphaZero的新进展
AlphaZero的成就和内部原理细节现在已经正式通过同行评议,并于本月发表在著名的《科学》杂志上。这篇新论文对 人们 关于 机器算法下 国际象棋的最初主张提出了几个措辞颇为 严厉 的批评。在过去的 12个月里,虽然AlphaZero并没有变得更强大,但 其 优势已经得到了证明。 AlphaZero清楚展示了人类从未见过的一种智慧,值得我们在未来很长一段时间内进行深思。
在过去的二十年里, 用 机器 算法下 国际象棋已经取得了很大进步。 1997年,IBM公司的国际象棋程序“深蓝”(Deep Blue)在一场六局的比赛中击败了当时的 人类 世界冠军卡斯帕罗夫 (Garry Kasparov)。 现在看来, 这一成就并不神秘。深蓝每秒可以计算 2亿个位置。它从不疲倦,从不在计算中出错,也从不 会 忘记片刻之前的想法。
无论结果是好是坏, “深蓝” 都像一台真正的机器,粗暴而物质化。它的计算能力远超过卡斯帕罗夫,但却无法真正从思维上超越他。在第一局 的 比赛中,深蓝贪婪地接受了卡斯帕罗夫用车换一名主教的牺牲, 却 在 16步之后输了比赛。 现在, 诸如 Stockfish和Komodo等当前世界上最强的国际象棋程序仍然在以这种方式下棋。 它们 喜欢吃掉对手的棋子 ;它们 防守像钢铁一样强悍。但是,尽管 这些国际象棋程序要 比任何人类棋手强大得多, 但并没有 真正 理解 棋局本身的意义。
经过几十年 的发展, 人类大师 关于棋类游戏的经验都被 作为复杂的评估工具编进程序中, 表明在下棋中该 寻求什么样的 有利 位置以及避免陷入什么样的不利境地 : 比如 王的安全性 ,棋子的活动,兵形,中心控制,以及如何平衡利弊。但今天 很多 国际象棋程序 却 天生无视这些原则,给人 留下 的印象是野蛮粗暴的 :速度快得惊人,但却完全缺乏洞察力。
所有这些都随着机器学习的兴起而改变。 AlphaZero通过与自己对弈并根据经验更新神经网络,从而发现了国际象棋的原理,并迅速成为史上最好的棋手。它不仅能够轻而易举地击败所有最强大的人类棋手,还能击败当时的计算机国际象棋世界冠军Stockfish。在与Stockfish进行的100场比赛中,AlphaZero取得28胜72平的 好 成绩。它没有输掉一场比赛。
最令人不安的是, AlphaZero似乎表达出一种 天然的 洞察力。它 具备 浪漫而 富有 攻击性的风格,以一种直观而优美的方式发挥着电脑所没有的作用。它会玩花招,冒险。在 其中几局中,它使 Stockfish瘫痪并玩弄它。当AlphaZero在第10局进行 进攻 时,它把自己的皇后 佯 退到棋盘的角落里,远离 Stockfish的国王。通常来说,这并不是攻击皇后应该被放置的地方。
然而,这种奇怪的撤退 行为 充满了恶意 :不管Stockfish如何应对,它都注定要失败。经过数十亿次残酷的计算 后 , AlphaZero几乎是在等待Stockfish意识到, 自己 的处境是多么无望,就像一头被击败的公牛面对斗牛士一样平静落败。大师们从未见过这样的机器。 AlphaZero拥有精湛的技艺,同时也拥有机器的力量。这是人类第一次瞥见一种令人敬畏的新型智能。
很明显, AlphaZero获胜靠的是更聪明的思维,而不是更快的思维;它每秒只计算6万个位置,而Stockfish会计算6千万个。它更明智,知道该思考什么,该忽略什么。卡斯帕罗夫在《科学》杂志文章附带的一篇评论中写道,AlphaZero通过自主发现国际象棋的原理,开发出一种“反映游戏真相”的玩法,而不是“程序员式的优先级和偏见”。
现在的问题是,机器学习能否帮助人类发现 所 关心问题的真相?比如像癌症和意识、免疫系统之谜 、 基因组之谜等科学和医学尚未解决的重大问题。
早期迹象令人鼓舞。去年 8月 份 ,《自然医学》上的两篇文章探讨了机器学习如何应用于医学诊断。在一项研究中, DeepMind研究人员与伦敦莫尔菲尔德眼科医院(Moorfields Eye Hospital)的临床医生合作,开发 出 一种深度学习算法,可以准确地对各种视网膜病变进行分类。
另一篇文章 也 涉及一种机器学习算法, 其 能够确定急诊室病人的 CT扫描是否显现出中风、颅内出血或其他重要神经疾病的迹象。对于中风患者来说,每一分钟都很重要;治疗 耽误 的时间越长,结果 就越 糟。新算法的准确性堪比人类专家,而且比人类专家快 150倍。一个更快的诊断有助于医生对最紧急病例进行快速分类,并由人类放射科医生进行复查。
然而令人沮丧的是,机器学习算法还无法清晰表达它们的想法。我们不知道它们如何得出结论,所以 也就无从确定 能否信任机器。 AlphaZero似乎已经发现了一些有关国际象棋的重要原则,但它无法与我们分享这种洞察力。作为人类,我们想要的不仅仅是答案。我们想要 的是 洞察力。从现在起,这将成为我们与电脑互动紧张的 源渊 。
事实上, 这一情况在 数学 领域 中 早有耳闻 。四色映射定理就是这样一个长期存在的数学问题。 该定理指出 在一定的合理约束条件下,有关相邻国家的任何地图都可以只使用四种颜色进行着色,这样相邻两个国家的颜色就不会相同。
虽然人们 最终 在计算机帮助下于 1977年证明了四色映射定理,但是没有人能够检验论证中的所有步骤。从那以后,这个 定理的 证明得到了验证和简化,但仍有一些部分需要进行蛮力计算。这种发展使许多数学家感到恼火。他们不需要确认四色定理是正确的, 但 他们想知道为什么这是真的,但是证明没有帮助。
但是设想有一天,也许 就 在不久的将来, AlphaZero已经发展成为一种更通用的解决问题算法,其将拥有至高无上的洞察力:它能够拿出漂亮的证据,就像AlphaZero与Stockfish对弈时一样优雅。每一个证明都会揭示为什么定理是正确的。
对于人类数学家和科学家来说,这一天将标志着一个新时代的到来。机器的速度越来越快, 相比之下 人类神经元却以毫秒级的速度缓慢运转,我们再也跟不上机器的理解速度,人类洞察力的黎明可能很快就会变成黄昏。
无论是 基因调控或癌症, 还是 免疫系统的编排, 抑或是 亚原子粒子的运动, 其中或许 还存在 有待于发现的 更深层模式。假设这些模式 需要超越人类的 更高智能来预测,而 AlphaZero的继任者又能够识别并理解它们,那么在我们人类看来 算法 就像是一个神谕。
或许未来,我们不再明白为什么计算机的结论总是正确的,但我们可以通过实验和观察来检验它的计算和预测。科学将把我们的角色降低到旁观者的角色,在惊奇和困惑中目瞪口呆。
也许最终我们 不再纠结于人类自身关于 洞察力的 匮乏。 毕竟机器算法 将 能够治愈我们所有的疾病,解决我们所有的科学问题,并让我们所有的一切 顺利前行 。在我们作为智人存在的最初 30万年时间里,我们在没有多少洞察力的情况下 一样生存得 相当好。而且我们 还 不乏记忆 :我们将自豪地回忆起人类洞察力的黄金时代,这段几千年的辉煌插曲 就 发生在我们不理解的过去和我们不可思议的未来之间。(编译/晗冰)
DeepMind 的围棋高手炼成记
这家公司是在 2010 年由杰米斯・哈萨比斯,谢恩・列格和穆斯塔法・苏莱曼成立创业公司。在 2014 年, DeepMind 荣获了剑桥大学计算机实验室的“年度公司”奖项。
2014 年 1 月 26 日, Google 宣布已经同意收购 DeepMind 科技。这次收购发生在 2013 年 Facebook 与 DeepMind 科技结束谈判之后,收购的价格大概为 4 亿美元。
DeepMind 真正被全球熟知是在第一次人机大战之后,从 2016 年的那场对弈之后, DeepMind 旗下的围棋 AI 就开始了超神之路,我们为大家作出如下梳理。
一、 2016 年 1 月 27 日, AlphaGo 在没有任何让子的情况下,以 5:0 完胜欧洲围棋冠军、职业二段选手樊麾。在围棋人工智能领域,实现了一次史无前例的突破。计算机程序能在不让子的情况下,在完整的围棋竞技中击败专业选手,这是第一次。
二、 2016 年 3 月,阿尔法围棋与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以 4 比 1 的总比分获胜,举世哗然,人工智能概念开始被大众熟知。
三、 2016 年末 2017 年初,该程序在中国棋类网站上以“大师”( Master )为注册账号与中日韩数十位围棋高手进行快棋对决,连续 60 局无一败绩;
四、 2017 年 5 月,在中国乌镇围棋峰会上,阿尔法围棋以 3 比 0 的总比分战胜排名世界第一的世界围棋冠军柯洁。在这次围棋峰会期间的 2017 年 5 月 26 日,阿尔法围棋还战胜了由陈耀烨、唐韦星、周睿羊、时越、芈昱廷五位世界冠军组成的围棋团队。在柯洁与阿尔法围棋的人机大战之后,阿尔法围棋团队宣布阿尔法围棋将不再参加围棋比赛。
五、 伦敦当地时间 10 月 18 日, DeepMind 团队公布了最强版 AlphaGo ,代号 AlphaGo Zero 。它的独门秘籍是“自学成才”。而且,是从一张白纸开始,零基础学习,在短短 3 天内,成为顶级高手。经过短短 3 天的自我训练, AlphaGo Zero 就强势打败了此前战胜李世石的旧版 AlphaGo ,战绩是 100:0 的。
六、AlphaGo Zero 迎来升级,这个被称为 AlphaZero 的程序在三天内自学了三种不同的棋类游戏,包括国际象棋、围棋和日本的将军棋,无需人工干预,一篇描述这一成就的论文今年 12 月初在《科学》杂志发表。
七、在 AlphaZero 之外, DeepMind 在医疗领域也取得重大突破,该公司日前宣布打造了一个名为 AlphaFold 的 AI 系统,它能够应对当今生物学中最大的挑战之一:模拟蛋白质的形状。
关注网易智能公众号(smartman163),为你解读AI领域大公司大事件,新观点新应用。