解读人机大战2.0：围棋的真谛是什么，AlphaGo将功成名退？

网易科技 • 7年前扫码分享

文 /小羿

人机大战第二季第一场，柯洁负于 AlphaGo。

结果并不出人意料，就像人们已经习惯了 Master横扫棋坛一样。拼尽全力的柯洁，也只能望洋兴叹，AlphaGo对棋的理解和判断已经高于我们（人类）了。

但是，如果我们关注的仅仅限于输赢，那整场比赛已经没有任何意义了。网易智能希望带您深挖围棋背后的东西， AlphaGo凭什么赢了人类，它颠覆了什么，它以后还会存在吗？在人工智能技术大范围推广应用的今天，人类该何去何从？

柯洁 vs AlphaGo 2.0：一场顶尖高手的精彩较量

虽然我们对于输赢早已心中有数，但如果我们尽情欣赏这局比赛，一定会为其精彩之处赞叹不已。现年 19岁的柯洁是目前世界排名第一的职业围棋选手，5岁开始学棋，10岁的时候成为职业选手，曾先后四次获得国际大赛冠军，可以说，他本身就代表了人类在围棋上的最高智力。而AlphaGo 2.0经过进化，学会了的自我博弈，几乎是满血+升级。双方的比赛，在围棋界就是一场值得载入历史的空前决赛。

解读人机大战2.0：围棋的真谛是什么，AlphaGo将功成名退？

在第一局的比赛中，柯洁对 AlphaGo早已有所防备，使用了传奇围棋大师吴清源和木谷实在上世纪30年代创立的三・3开局。此开局曾经流行数十年，此后在现代围棋中渐渐淡出。然而，AlphaGo（曾化名Master）在今年1月的一系列比赛中再次启用此开局，此后柯洁和其他棋手一起在最近的棋赛中令其活力再现。在今天的对局中，AlphaGo还使用了它擅长的二间守角，而柯洁则在左上角祭出了三・3点角。

搜狗 CEO王小川曾评论到，这次人机大战我们的关注点不再是机器是否会赢，而是机器将用什么姿势战胜人类。

14:50分左右，经过4个多小时的时间，AlphaGo执白以1/4子获胜。

三角兽科技首席科学家王宝勋点评说，能比较明显的感觉到 AlphaGo对于“势”的理解跟之前对战李世石相比更加明显了，在这样的情况下，机器比人更能避免陷入局部利益的狭隘计算，进而表现为能够走出看似难以理解但是实则韵味无穷的落子，因为它的每一步都是朝着全局获胜的目标前进的。

解读人机大战2.0：围棋的真谛是什么，AlphaGo将功成名退？

赛后，柯洁表示， “我对布局有过备战和研究，所以一开局下了三・3占角，三・3点角，这都是对手特别喜欢下的，所以我想看看它怎么应对，但它应对得非常好。那手断让我很震惊，这手棋在人类对局中几乎是不可能的，因为是后手。后来冷静下来分析确实是好棋，制造了很多劫材，同时让角部实地化，一石二鸟。AlphaGo实在下得太出色，我输得没什么脾气，很厉害。”

一句 “输得没脾气”，让我们觉得作为人类围棋冠军的柯洁，第一次对于打败自己的人心服口服。

而另一方面， DeepMind创始人Demis Hassabis（哈萨比斯）在赛后新闻发布会上表示：“我要向柯洁表示祝贺，这是一场精彩绝伦的比赛，双方势均力敌，难分高下，对在座的每一个人来说，都是一次令人激动的体验。”

哈萨比斯认为，柯洁将 AlphaGo推向了极限。

自由自在，这才是围棋的真谛？

AlphaGo之父哈萨比斯也是一个绝顶聪明的人，他从4岁开始下象棋，很快成为天才少年。8岁时就思考人脑如何完成复杂的任务。在本场比赛开始前的开幕式上，哈萨比斯就为此次比赛定了调。他说，“AlphaGo的本质是人类利用电脑发现新知识，人们利用哈勃望远镜发现新的宇宙空间一样。就像我们的最终目的不是输赢，因为不管如何，最终的胜利终将属于人类。让我们一起寻找围棋的真谛。”

解读人机大战2.0：围棋的真谛是什么，AlphaGo将功成名退？

启发棋手思路，寻找围棋真谛。哈萨比斯将 AlphaGo比喻围棋界的“哈勃望远镜”，事实也证明了AlphaGo对于人类围棋的种种启发。

正如赛后柯洁所说，比赛之中 AlphaGo的几个下法我觉得是人类对弈中不可能发生的，AlphaGo今年的棋和去年的棋判若两人，有很多地方值得我们棋手去学习和探讨。“AlphaGo在冲击人类的围棋理念，那就是没有什么棋是不可以下的。”柯洁说。

解读人机大战2.0：围棋的真谛是什么，AlphaGo将功成名退？

职业女子棋手和评论员徐莹在今天比赛的评述中说到： “自从 AlphaGo 出现之后，突然围棋变得五彩斑澜了，我们感觉思路一下子打开了，AlphaGo 这种自由自在的行棋风格，恰恰是我们一直所追求的围棋本质。”

Michael Redmond九段点评说，AlphaGo的棋风如何激发人类棋手挑战创新的边界，并赋予一些传统套路新的生命。“柯洁在开局阶段就使用了他从早前Master连胜系列中学习到的下法，并和自己的风格融合到了一起。”

正如哈萨比斯所说， “再过一万年，我们也不能穷尽所有的打法。”但是，围棋的探索从未停止。

AlphaGo有哪些蜕变，2.0之后何去何从？

哈萨比斯今日透露，目前的 AlphaGo是在云端由单TPU运行，这与Goolge上周在I/O大会上刚公布的芯片版本一致。TPU是专门为机器学习而设计的处理器。与去年3月与李世石的比赛时相比，当前的版本在处理计算时所消耗的能量仅为过去的十分之一。

解读人机大战2.0：围棋的真谛是什么，AlphaGo将功成名退？

360研究院院长颜水成点评说，过去一年多，AlphaGo在学习方式和模型上有很大的变化和提升，实时比赛计算已经用一个TPU就足够。对于算法上的贡献，三角兽科技首席科学家王宝勋说，毫无疑问的AlphaGo基于深度学习的搜索算法得到了进一步的优化，走棋的效率更高，强化学习势必比之前发挥的作用更大。但是Deepmind对于硬件和模型细节的把握同样是不可忽视的因素。

对于 AlphaGo 2.0的技术进步，地平线机器人技术CEO余凯称，这次AlphaGo 2.0的重要进展是，系统完全从零状态开始通过自我博弈来学习和提升棋力的。而以前的1.0版本是有学习人类棋手历史数据的。这种完全不需要外界数据的自我学习，是人工智能很激动人心的一个进展。

搜狗 CEO王小川进一步解释说，AlphaGo 1.0是巧妙地混合了蒙特卡洛树搜索+监督学习+增强学习三种算法。而此次AlphaGo2.0的技术原理与之前有着巨大不同，它放弃了放弃了监督学习；放弃了蒙特卡洛树搜索，不再进行暴力计算；极大地强化了增强学习的作用，之前敲边鼓的算法，正式成为扛把子主力。

第四范式资深机器学习架构师涂威威点评到，在底层架构上， AlphaGo这一版性能相比去年有了一个量级的提升，不仅是训练速度提升，而且实际对弈的机器也从去年的多台机器的集群变成了现在的单机，这点对实际应用意义巨大，降低了使用门槛，同样也使得在相同计算资源的情况下，可以支持更多的训练数据和维度更高的模型；Google在此之前也宣布了新版的TPU，打破了深度学习训练硬件上GPU的垄断（更早公开的TPU只是被应用在深度学习预估系统中），新版的AlphaGo可能也会受益于TPU技术的进步。算法细节上尚未公布，这一版可能对搜索策略和强化学习一些细节上进行调整，比如蒙特卡洛树搜索和策略网络结合来提升性能，以及上一版的AlphaGo自我博弈的启发式策略（与前几轮的自己进行对弈）并不收敛，我们猜测新版可能在这些方面会有所改进。

涂威威重点提到， DeepMind已经在尝试让AlphaGo有“举一反三”的能力，这种触类旁通的能力才是人类更为擅长的，这里就要用到迁移学习领域的技术。

对于 AlphaGo在比赛之后的发展，创始人哈萨比斯表示，我们在本周内会告诉大家，并披露更多的技术细节。

解读人机大战2.0：围棋的真谛是什么，AlphaGo将功成名退？

人工智能能给人类带来什么？

虽然哈萨比斯没有透露 AlphaGo的去向，但是他在现场曾表示，我们利用人工智能可以解决目前的很多难题，比如医疗。我们希望AlphaGo与人类的合作可以找到更多的方式，我们希望AlphaGo在其他领域也能取得瞩目的成就。

达闼科技 CEO黄晓庆说，AlphaGo赢柯洁是完全在意料之中，赢很小的优势也是意料之中，因为那是AlphaGo的设计方法，只需要保证赢就行。“这是对强人工智能技术的可能性的最强大的证明！”黄晓庆强调说。

也许就是因为这种进步， DeepMind将开始探索人工智能在医疗等各个行业领域的应用。

海知智能（ ruyi.ai）创始人兼CEO谢殿侠评点说，以AlphaGo为代表的人工智能应用，在这场认知革命里只是一个小小里程碑。工业革命实现了体力工作自动化解放了体力劳动者，认知革命将知识工作自动化解放脑力劳动者。

解读人机大战2.0：围棋的真谛是什么，AlphaGo将功成名退？

最后，智能菌相对大家说，比赛尚未结束，精彩还在继续，虽然变化打法仍没有找到 AlphaGo的弱点，但柯洁仍表示会尽全力去拼每一盘棋，作为观众我们何尝不需要这种认真的精神呢？

解读人机大战2.0：围棋的真谛是什么，AlphaGo将功成名退？

随意打赏

人工智能alphago围棋柯洁 alphago 围棋围棋ai alphago 谷歌围棋alphago alphago人机大战 alphago是什么围棋 alphago alphago人机 alphago柯洁围棋alphago