AlphaGo首出Bug，围棋第三代算法的死穴在哪儿？

钛媒体 • 9年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

（本文正在参与钛媒体最新竞拍话题【围观AlphaGo大战世界围棋冠军：机器战胜人到底是不是忽悠？】的竞拍，如果持有不同见解，钛妹欢迎你来参与竞拍，观点PK，不服来战！）

再可怕的怪物也是有弱点的，AlphaGo为什么会下臭棋让大家大跌眼镜，围棋人工智能第二代第三代的死穴是什么？

围棋人工智能第三代的死穴在哪儿？

韩国围棋界曾获得多项世界冠军的职业九段李世石对阵谷歌计算机AlphaGo的人机大战，三连败之后，执白棋居然扳回一局。

大众把此场围棋人机大战看得太重，看作人脑跟电脑的彻底较量，其实不然，因为比试的只是围棋一样东西。围棋人机大战人类若输了，不等于人脑就从此比不上电脑了。

实际上，围棋虽然变化复杂，但理论上并非变化无穷。毕竟可以看作一道数学题目，可以用计算机来编程运算从而得到解答。假以时日，人类在下棋这一方面迟早难以与电脑匹敌。就算李世石三连败之后能扳回两局，那就怎么样呢？下围棋这一方面人类迟早是敌不过人工智能的。

围棋人工智能第一代算法使用的就是穷举法，试图把所有的下法都算出来，然后选择必胜的下法。但是因为围棋的变化委实太多，暂时无法办到。

第二代算法，是抽样评估选择胜率最高的算法，大大减省了运算量，使人工智能终于能跟业余围棋选手较量。

谷歌AlphaGo是第三代算法，利用人工智能自我学习的能力使己身棋力突飞猛进。看上去似乎已能辗压世界顶尖职业高手的AlphaGo，第四局居然爆冷下臭棋落败，是出了什么问题？

Alpha Go的算法是有问题的。第三代算法的问题实际上也是第二代算法的问题，因为第三代算法是基于第二代算法的抽样评估再加以自我学习。就算Alpha Go可以自己跟自己下棋提升棋力，它之所以能这样下棋还是基于抽样评估。

抽样评估是有弱点的。胜率高的下法不一定就是正确的下法，毕竟这只是统计。有些冷门下法，也许反而能出奇制胜。

Alpha Go下臭棋时思考速度特别快恰恰说明此时的样本少。李世石78手是奇招，会下这一手的棋手很少，AlphaGo按照程序运算的结果自以为李世石胜算不高，特别快地作出了反应。这是一个天大的错误。

跟围棋程序下过棋的棋手都有这么一种感觉：电脑在劣势时应对特别混乱。不单AlphaGo，Zen也是这样。因为电脑处于胜率低的情况已经不好思考了。按照样本统计，处于胜率低的情况下当然是落败的多，反败为胜的样本可不好找。胜率越低的情况，AlphaGo的思路越混乱。在极端情况下，也许找到的样本中胜率低的一方已经投子认输了，没有后续的棋谱，AlphaGo于是不懂该怎么办了。

Alpha Go的失败也是人类的失败，毕竟的程序也是人类编出来的。另一方面，也是因为算法基于人类的样本，导致了AlphaGo的失败。如果有应对李世石那一招的样本，AlphaGo也不至于如此判断出错。

Alpha Go之父哈萨比斯说：“AlphaGo的训练并没有专门针对李世石先生，而是像对普通棋手比赛前一样，做的只是日常的准备。AlphaGo备战就是从网上下载很多业余棋手的棋谱研究，没有什么特别之处。”随后又说，“要针对某一个棋手备战也很难，我们至少需要数百万甚至上亿的棋谱，才能整体提供给AlphaGo，它才能接收并进行深度学习。”

哈萨比斯的话也证实了围棋人工智能第二代第三代的死穴，也就是样本评估的问题。像李世石反败为胜这样的奇招，能找到的样本实在太少。AlphaGo明显需要有大量职业棋手的优质且非常全面的对局作为参考，这可不好办到。

围棋贴目难题仍待解决

第四局，李世石执白棋反而能获胜，这是一件很匪夷所思的事。因为黑棋有先手优势，胜率更高。

围棋人机大战引出了一个长期困扰围棋界的问题，就是围棋规则中关于贴目的规定。不玩围棋的人可能不知道，但围棋迷都清楚。执黑棋的棋手是先手，享有优势，故为了公平起见，黑方需要向白方贴目。

1949年（昭和24年）日本棋院围棋规则规定：黑方贴4目半。从1955年的第3期王座战起，黑棋贴目从4目半改为5目半。但是根据统计，黑方仍然占了优势。截止到2001年底，在日本棋院近5年来进行的1.5万盘正式公开棋赛对局中，（黑贴5目半的情况下）黑棋胜率达到了51.86%。执黑执白的胜率之差虽然不大，但在争夺激烈的围棋大赛上，这样的差距足以致命。

在国际棋赛中实力明显占优的韩国率先在大多数棋赛中改用6目半制。中国也从2002年春天起，全部改贴3又3/4子（相当于7目半）。日本棋院对于实行了50年的黑棋贴5目半的制度也实行了改革，将部分比赛向中韩靠拢， 2003年开始全部采用黑棋贴6目半规则。

截止到2014年底，中国大陆主办的贴3又3/4子（相当于7目半）的世界大赛共有380盘对局，其中黑胜200局，胜率为52.6%（前3届春兰杯相当于贴5目半，未计入）。而台湾举办的应氏杯（贴8点，也相当于7目半）则是黑胜100局，白胜97局。由此可见，即便是贴7目半，黑方似乎还是略占优势。

那么，到底黑方要向白方贴目多少才绝对公平？目前这个数值只是根据大量人类对局作统计得出的，并非数学上的完美无懈的解答。

也许，让AlphaGo学金庸武侠小说中的周伯通和郭靖左右互搏，自己左手跟右手下棋，然后通过大量内战结果统计出贴目的合理数值？No，这也不是完美的解答。

前面说过，AlphaGo之所以能自己跟自己下棋，还是基于对人类对局的抽样评估。这跟直接对人类对局进行统计没什么两样。

完美的解答，还是要回到最初，用最原始的穷举法，找出下围棋的最优解。这样，才能彻底制订贴目的数值。只是不知道，运算量这么大的工程，不知道要到什么时候才能实现？

我们倒是可以设想一下围棋得到彻底破解之后的情景：某国际围棋大赛在万众瞩目下开始了，执黑棋的棋手才下了第一子，裁判当即宣布，执白棋的棋手不用下了，比赛结果已定，谁胜谁负或是打成平手已经水落石出。观众一片欢呼。

AlphaGo玩麻将怎么样兼论桌游设计的随机性

围棋人机大战人类虽然输了，但有些网友表示，人类的智慧还有中国麻将守着（详见钛媒体文章《赢了围棋冠军不算什么，阿尔法狗敢不敢挑战麻将？|钛搞了》）。但中搜网络创始人、北京围棋业余赛冠军陈沛对采访他的记者说：“要是麻将，人类会输得更惨！麻将一共就那么多张，很容易算出来的。”

然而，陈沛的话其实是错的。假设有个傻大木，他都不太会玩麻将，但他就是运气好到爆棚，一开局就自摸十三幺，请问AlphaGo可有破解高招？

麻将这类棋牌游戏因为随机抽牌，是有运气成分的。

有网友就戏言：假如打麻将时三个人联手对付AlphaGo，AlphaGo会输得很惨。这虽然是作弊了，但也道出了一个大问题：在多人游戏中，局面变得异常复杂，人工智能要如何才能应对？

比如说，三个人跟Alpha Go打麻将，虽然没人作弊，但是甲玩家技术不行打错了牌导致乙玩家得利，这是Alpha Go所无法控制的。

说起来，AlphaGo要学习打麻将，也是得基于对大量人类对局的样本评估。Alpha Go只能弄明白什么样的打法胜率较高，然而打麻将并没有所谓必胜的打法。

围棋的棋子摆在棋盘上是明眼可见的。不知大家有没有听说过一种“暗棋”，就是将象棋的棋子反过来盖上再玩的。陆战棋也有暗棋的玩法。麻将其实也跟暗棋玩法类似，牌是盖起来玩的。盖起来的棋牌是什么，还得猜测。Alpha Go顶多是通过计算进行评估，盖起来的棋牌是什么的可能性比较大，不可能准确推理得到唯一结果。也就是说Alpha Go永远无法进化到100%获胜的地步。

围棋没有运气成分，而麻将有着运气成分，两者都有自己的魅力。

广义上，围棋、麻将这些棋牌游戏，其实是属于桌游的范畴。围棋的英文是“Go”，AlphaGo的“Go”就从此而来。围棋跻身BGG桌游排行榜前100名，是中国棋牌类游戏排名最高的。

在民间，实际上像象棋、围棋这类没有运气成分的棋牌（桌游）已渐趋没落。现在关注围棋人机大战的网友，又有多少人是围棋迷呢？

因为大众想要的更是娱乐，像象棋、围棋这类没有运气成分的，玩起来水平发挥比较稳定，高手就是高手，一般人很难赢得了，除非你能找到棋力刚巧跟你一个水平档次的，不然玩起来没意思，强的太强弱的过弱。

故此，新兴桌游的设计宗旨，都是要保证随机性，要有运气成分。像万智牌、游戏王和炉石传说之类随机抽牌，飞行棋、大富翁之类掷骰子，都是产生随机数，带来运气成分。有了运气成分，所有玩家发挥出来的水平就不至于相差太远，能凑到一起玩个痛快。

另一方面，没有运气成分的棋牌（桌游），因为理论上一定存在最优解，最优解一旦出来后，肯定让人兴致大减。围棋就是因为变化委实太多，至今仍未有最优解，所以能存活到今天。现在，AlphaGo并没有彻底击败李世石，看起来围棋的生命力仍然很顽强。（本文首发钛媒体）