谷歌人工智能AlphaGo挑战人类围棋冠军

月光博客 • 9年前扫码分享

　　 2月22日消息，继宣布AlphaGo实现突破性研究－计算机程序首次击败专业棋手之后， Google DeepMind今日公布了即将与过去十年最佳围棋手李世石之间的终极挑战的详细情况。

　　3月9日至3月15日，AlphaGo将在韩国首尔与李世石进行5场挑战赛。比赛完全平等，获胜者将得到一百万美元奖金。如果AlphaGo获胜，奖金将捐赠给联合国儿童基金会(UNICEF)，STEM教育，以及围棋慈善机构(Go Charity)。

　　因围棋步骤的绝对数量比宇宙的原子数还多，它一直被视为最复杂的电脑游戏之一，也是人工智能始终未解的挑战。DeepMind在上月的科学杂志Nature，以一篇论文公布了这一突破性进展的详细情况。

　　比赛采用中国围棋规则

　　比赛将于北京时间中午12点在首尔四季酒店举行，具体日程如下：

　　1. 3月9日 (星期三)：首场比赛

　　2. 3月10日(星期四)：第二场比赛

　　3. 3月12日(星期六)：第三场比赛

　　4. 3月13日(星期日)：第四场比赛

　　5. 3月15日(星期二)：第五场比赛

　　比赛将采用贴7.5目的中国规则(比赛结束时，后走棋的棋手贴目)。每位棋手各有两个小时布局时间，3次60秒的读秒，每场比赛预计需要大约4-5个小时。

　　总规则

　　1、比赛分先进行，共下5盘，五盘对局取三胜以上为优胜，获得奖金100万美元（固定汇率：11亿韩元）。

　　2、若Alpha GO获胜，奖金捐献给联合国儿童基金和STEM教育（科学、技术、工程、艺术以及数学）及围棋相关公益团体。

　　3、比赛即使3：0、3比1分出胜负，与比分无关将下满五盘棋，以便Alpha GO拥有更多学习机会。

　　4、以下满五盘为条件，李世石可获得15万美元（约1亿6500万韩元）出场费，同时每胜一局获得2万美元胜局奖金。如果五盘全胜，胜局奖金为10万美元（1亿1000万韩元）。即李世石五战全胜获得优胜，最多可以获得125万美元（13亿7500万韩元）。

　　5、比赛用时每方2小时，1分钟读秒三次。比赛采用中国规则，黑贴3又3/4子（黑贴7目半）。采用中国规则的原因，是因Alpha GO以中国规则为基础开发。

　　6、比赛开局时间为韩国当地时间下午1点（北京时间中午12点），比赛不设中间休息。

　　7、比赛时李世石在棋盘上落子，助手将手数输入电脑传送给Alpha GO。Alpha GO的手数由助手摆到李世石落子的棋盘上。

　　8、所有对局通过Deep Mind公司youtube频道向全世界实况直播，此外通过韩国棋院围棋TV和因特网围棋网站直播。

　　人工智能挑战围棋有多难？

　　计算机和人类竞赛在棋类比赛中已不罕见，在三子棋、跳棋和国际象棋等棋类上，计算机都先后完成了对人类的挑战。但对拥有2500多年历史的围棋而言，计算机在此之前从未战胜过人类。围棋看起来棋盘简单、规则不难，纵横各19九条等距离、垂直交叉的平行线，共构成19×19(361)个交叉点。比赛双方交替落子，目的是在棋盘上占据尽可能大的空间。

　　在极简主义的游戏表象之下，围棋具有令人难以置信的深度和微妙之处。当棋盘为空时，先手拥有361个可选方案。在游戏进行当中，它拥有远比国际象棋更多的选择空间，这也是为什么人工智能、机器学习的研发者们始终希望在此取得突破的原因。

　　就机器学习的角度而言，围棋的计算最大有3361种局面，大致的体量是10170，而已经观测到的宇宙中，原子的数量才1080。国际象棋最大只有2155种局面，称为香农数，大致是1047。

　　“机器学习”预测人类行为

　　传统的人工智能方法是将所有可能的走法构建成一棵搜索树，但这种方法对围棋并不适用。此次谷歌推出的AlphaGo，将高级搜索树与深度神经网络结合在一起。这些神经网络通过12个处理层传递对棋盘的描述，处理层则包含数百万个类似于神经的连接点。

　　其中一个神经网络“决策网络”(policy network)负责选择下一步走法，另一个神经网络“值网络”(“value network)则预测比赛胜利方。谷歌方面用人类围棋高手的三千万步围棋走法训练神经网络，与此同时，AlphaGo也自行研究新战略，在它的神经网络之间运行了数千局围棋，利用反复试验调整连接点，这个流程也称为巩固学习(reinforcement learning)。通过广泛使用Google云平台，完成了大量研究工作。

　　征服围棋对于谷歌来说有重要意义。AlphaGo不仅是遵循人工规则的“专家”系统，它还通过“机器学习”自行掌握如何赢得围棋比赛。谷歌方面希望运用这些技术解决现实社会最严峻、最紧迫的问题——从气候建模到复杂的灾难分析。

　　在具体的机器训练上，决策网络的方式是输入人类围棋专家的比赛，到系统可以预测57%人类行动为止，此前最好成绩是44%。此后AlphaGo通过在神经网络内部进行比赛的方式(可以简单理解成和自己下棋)，开始学习自主探索新的围棋策略。目前AlphaGo的决策网络可以击败大多数具有庞大搜寻树的最先进的围棋程序。

　　Google DeepMind首席执行官、联合创始人Demis Hassabis表示：“围棋是深刻而复杂的游戏。为了击败一名职业棋手，我们不能只靠模仿，而是自主发现新的战略规则。因为方法是通用的，我们希望有一天可以将其运用于解决社会最棘手和最紧迫的问题上。不论我们在三月份能否赢李世石，这场比赛都一定能够激发世界各地对围棋的兴趣。”

　　AlphaGo战绩惊人

　　Park Chimoon, 韩国棋院副主席表示 “全世界都在关注这场人类与电脑在智能领域的首次交锋。这一历史时刻将由围棋来传达，我为此感到骄傲。我希望李世石能获得胜利，去证明人类卓越的智商以及维护围棋的神秘特性。”

　　实际上，目前AlphaGo已经成为最优秀的人工智能围棋程序。在与其他程序的对弈中，AlphaGo用一台机器就取得了500场的胜利，甚至有过让对手4手后获胜的纪录。去年10月5日-10月9日，谷歌安排AlphaGo与欧洲围棋冠军Fan Hui(樊麾：法国国家围棋队总教练)闭门比赛，谷歌以5-0取胜。

　　此次比赛的李世石是近10年来获得世界第一头衔最多的棋手，谷歌为此提供了100万美元作为奖金。李世石谈到此次比赛时表示：”这是电脑首次在公平比赛中挑战人类专家选手，我很荣幸能参与进来。无论结果如何，这都是围棋史上的重要时刻。我听说Google DeepMind的人工智能出乎意料的强大，并且一直在优化，但至少这次我还是很自信能够取得胜利。”

　　人机对弈谁将胜？

　　值得一提的是，上一次著名的人机对弈要追溯到1997年。当时IBM公司研发的超级计算机“深蓝”战胜了国际象棋冠军卡斯巴罗夫。不过国际象棋的算法要比围棋简单得多。国际象棋中取胜只需“杀死”国王，而围棋中则用数子或比目的方法计算胜负，并不是简单地杀死对方棋子。此前，“深蓝”计算机的设计人2007年发表文章指出，他相信十年内能有超级电脑在围棋上战胜人类。

　　该项目并未给IBM带来可以销售的产品，但却让我们意识到：基础科学研究所面临的巨大挑战是值得我们去迎接的，虽然企业在这方面的收益还无法量化。

　　随着顶级科技公司争相在产品中融入智能技术，谷歌并不是唯一一家研究围棋AI的公司，Facebook对围棋人工智能的研究整合此前也亮相最新的计算技术：深卷积神经网络(deep convolutional neural networks)和蒙特卡洛树搜索(Monte Carlo tree search)，前者利用类似于大脑的算法来学习和识别棋盘上各种模式的重要性，而后者相当于一种超前思维，用于计算详细的战略步骤。

　　Facebook和谷歌在围棋人工智能方面的研究具有极大的代表意义。与国际象棋相比，围棋更具深度。要让计算机掌握相关技巧，需要更多类似于人类的模式识别和直觉判断技巧，计算机象棋软件越来越优秀，已将揭开了这项游戏的神秘面纱；相比之下，围棋目前更加神秘。但将来，围棋的神秘色彩也可能不复存在。