解读人机大战2.0:围棋的真谛是什么,AlphaGo将功成名退?

解读人机大战2.0:围棋的真谛是什么,AlphaGo将功成名退?

/小羿

人机大战第二季第一场,柯洁负于 AlphaGo。

结果并不出人意料,就像人们已经习惯了 Master横扫棋坛一样。拼尽全力的柯洁,也只能望洋兴叹,AlphaGo对棋的理解和判断已经高于我们(人类)了。

但是,如果我们关注的仅仅限于输赢,那整场比赛已经没有任何意义了。网易智能希望带您深挖围棋背后的东西, AlphaGo凭什么赢了人类,它颠覆了什么,它以后还会存在吗?在人工智能技术大范围推广应用的今天,人类该何去何从?

柯洁 vs AlphaGo 2.0:一场顶尖高手的精彩较量

虽然我们对于输赢早已心中有数,但如果我们尽情欣赏这局比赛,一定会为其精彩之处赞叹不已。现年 19岁的柯洁是目前世界排名第一的职业围棋选手,5岁开始学棋,10岁的时候成为职业选手,曾先后四次获得国际大赛冠军,可以说,他本身就代表了人类在围棋上的最高智力。而AlphaGo 2.0经过进化,学会了的自我博弈,几乎是满血+升级。双方的比赛,在围棋界就是一场值得载入历史的空前决赛。

解读人机大战2.0:围棋的真谛是什么,AlphaGo将功成名退?

在第一局的比赛中,柯洁对 AlphaGo早已有所防备,使用了传奇围棋大师吴清源和木谷实在上世纪30年代创立的三・3开局。此开局曾经流行数十年,此后在现代围棋中渐渐淡出。然而,AlphaGo(曾化名Master)在今年1月的一系列比赛中再次启用此开局,此后柯洁和其他棋手一起在最近的棋赛中令其活力再现。在今天的对局中,AlphaGo还使用了它擅长的二间守角,而柯洁则在左上角祭出了三・3点角。

搜狗 CEO王小川曾评论到,这次人机大战我们的关注点不再是机器是否会赢,而是机器将用什么姿势战胜人类。

14:50分左右,经过4个多小时的时间,AlphaGo执白以1/4子获胜。

三角兽科技首席科学家王宝勋点评说,能比较明显的感觉到 AlphaGo对于“势”的理解跟之前对战李世石相比更加明显了,在这样的情况下,机器比人更能避免陷入局部利益的狭隘计算,进而表现为能够走出看似难以理解但是实则韵味无穷的落子,因为它的每一步都是朝着全局获胜的目标前进的。

解读人机大战2.0:围棋的真谛是什么,AlphaGo将功成名退?

赛后,柯洁表示, “我对布局有过备战和研究,所以一开局下了三・3占角,三・3点角,这都是对手特别喜欢下的,所以我想看看它怎么应对,但它应对得非常好。那手断让我很震惊,这手棋在人类对局中几乎是不可能的,因为是后手。后来冷静下来分析确实是好棋,制造了很多劫材,同时让角部实地化,一石二鸟。AlphaGo实在下得太出色,我输得没什么脾气,很厉害。”

一句 “输得没脾气”,让我们觉得作为人类围棋冠军的柯洁,第一次对于打败自己的人心服口服。

而另一方面, DeepMind创始人Demis Hassabis(哈萨比斯)在赛后新闻发布会上表示:“我要向柯洁表示祝贺,这是一场精彩绝伦的比赛,双方势均力敌,难分高下,对在座的每一个人来说,都是一次令人激动的体验。”

哈萨比斯认为,柯洁将 AlphaGo推向了极限。

自由自在,这才是围棋的真谛?

AlphaGo之父哈萨比斯也是一个绝顶聪明的人,他从4岁开始下象棋,很快成为天才少年。8岁时就思考人脑如何完成复杂的任务。在本场比赛开始前的开幕式上,哈萨比斯就为此次比赛定了调。他说,“AlphaGo的本质是人类利用电脑发现新知识,人们利用哈勃望远镜发现新的宇宙空间一样。就像我们的最终目的不是输赢,因为不管如何,最终的胜利终将属于人类。让我们一起寻找围棋的真谛。”

解读人机大战2.0:围棋的真谛是什么,AlphaGo将功成名退?

启发棋手思路,寻找围棋真谛。哈萨比斯将 AlphaGo比喻围棋界的“哈勃望远镜”,事实也证明了AlphaGo对于人类围棋的种种启发。

正如赛后柯洁所说,比赛之中 AlphaGo的几个下法我觉得是人类对弈中不可能发生的,AlphaGo今年的棋和去年的棋判若两人,有很多地方值得我们棋手去学习和探讨。“AlphaGo在冲击人类的围棋理念,那就是没有什么棋是不可以下的。”柯洁说。

解读人机大战2.0:围棋的真谛是什么,AlphaGo将功成名退?

职业女子棋手和评论员徐莹在今天比赛的评述中说到: “自从 AlphaGo 出现之后,突然围棋变得五彩斑澜了,我们感觉思路一下子打开了,AlphaGo 这种自由自在的行棋风格,恰恰是我们一直所追求的围棋本质。”

Michael Redmond九段点评说,AlphaGo的棋风如何激发人类棋手挑战创新的边界,并赋予一些传统套路新的生命。“柯洁在开局阶段就使用了他从早前Master连胜系列中学习到的下法,并和自己的风格融合到了一起。”

正如哈萨比斯所说, “再过一万年,我们也不能穷尽所有的打法。”但是,围棋的探索从未停止。

AlphaGo有哪些蜕变,2.0之后何去何从?

哈萨比斯今日透露,目前的 AlphaGo是在云端由单TPU运行,这与Goolge上周在I/O大会上刚公布的芯片版本一致。TPU是专门为机器学习而设计的处理器。与去年3月与李世石的比赛时相比,当前的版本在处理计算时所消耗的能量仅为过去的十分之一。

解读人机大战2.0:围棋的真谛是什么,AlphaGo将功成名退?

360研究院院长颜水成点评说,过去一年多,AlphaGo在学习方式和模型上有很大的变化和提升,实时比赛计算已经用一个TPU就足够。对于算法上的贡献,三角兽科技首席科学家王宝勋说,毫无疑问的AlphaGo基于深度学习的搜索算法得到了进一步的优化,走棋的效率更高,强化学习势必比之前发挥的作用更大。但是Deepmind对于硬件和模型细节的把握同样是不可忽视的因素。

对于 AlphaGo 2.0的技术进步,地平线机器人技术CEO余凯称,这次AlphaGo 2.0的重要进展是,系统完全从零状态开始通过自我博弈来学习和提升棋力的。而以前的1.0版本是有学习人类棋手历史数据的。这种完全不需要外界数据的自我学习,是人工智能很激动人心的一个进展。

搜狗 CEO王小川进一步解释说,AlphaGo 1.0是巧妙地混合了蒙特卡洛树搜索+监督学习+增强学习三种算法。而此次AlphaGo2.0的技术原理与之前有着巨大不同,它放弃了放弃了监督学习;放弃了蒙特卡洛树搜索,不再进行暴力计算;极大地强化了增强学习的作用,之前敲边鼓的算法,正式成为扛把子主力。

第四范式资深机器学习架构师涂威威点评到,在底层架构上, AlphaGo这一版性能相比去年有了一个量级的提升,不仅是训练速度提升,而且实际对弈的机器也从去年的多台机器的集群变成了现在的单机,这点对实际应用意义巨大,降低了使用门槛,同样也使得在相同计算资源的情况下,可以支持更多的训练数据和维度更高的模型;Google在此之前也宣布了新版的TPU,打破了深度学习训练硬件上GPU的垄断(更早公开的TPU只是被应用在深度学习预估系统中),新版的AlphaGo可能也会受益于TPU技术的进步。算法细节上尚未公布,这一版可能对搜索策略和强化学习一些细节上进行调整,比如蒙特卡洛树搜索和策略网络结合来提升性能,以及上一版的AlphaGo自我博弈的启发式策略(与前几轮的自己进行对弈)并不收敛,我们猜测新版可能在这些方面会有所改进。

涂威威重点提到, DeepMind已经在尝试让AlphaGo有“举一反三”的能力,这种触类旁通的能力才是人类更为擅长的,这里就要用到迁移学习领域的技术。

对于 AlphaGo在比赛之后的发展,创始人哈萨比斯表示,我们在本周内会告诉大家,并披露更多的技术细节。

解读人机大战2.0:围棋的真谛是什么,AlphaGo将功成名退?

人工智能能给人类带来什么?

虽然哈萨比斯没有透露 AlphaGo的去向,但是他在现场曾表示,我们利用人工智能可以解决目前的很多难题,比如医疗。我们希望AlphaGo与人类的合作可以找到更多的方式,我们希望AlphaGo在其他领域也能取得瞩目的成就。

达闼科技 CEO黄晓庆说,AlphaGo赢柯洁是完全在意料之中,赢很小的优势也是意料之中,因为那是AlphaGo的设计方法,只需要保证赢就行。“这是对强人工智能技术的可能性的最强大的证明!”黄晓庆强调说。

也许就是因为这种进步, DeepMind将开始探索人工智能在医疗等各个行业领域的应用。

海知智能( ruyi.ai)创始人兼CEO谢殿侠评点说,以AlphaGo为代表的人工智能应用,在这场认知革命里只是一个小小里程碑。工业革命实现了体力工作自动化解放了体力劳动者,认知革命将知识工作自动化解放脑力劳动者。

解读人机大战2.0:围棋的真谛是什么,AlphaGo将功成名退?

最后,智能菌相对大家说,比赛尚未结束,精彩还在继续,虽然变化打法仍没有找到 AlphaGo的弱点,但柯洁仍表示会尽全力去拼每一盘棋,作为观众我们何尝不需要这种认真的精神呢?

解读人机大战2.0:围棋的真谛是什么,AlphaGo将功成名退?  

随意打赏

人工智能alphago围棋柯洁 alphago 围棋围棋ai alphago谷歌围棋alphagoalphago人机大战alphago是什么围棋 alphagoalphago人机alphago柯洁围棋alphago
提交建议
微信扫一扫,分享给好友吧。