AlphaGo首出Bug,围棋第三代算法的死穴在哪儿?

钛媒体  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

(本文正在参与钛媒体最新竞拍话题【围观AlphaGo大战世界围棋冠军:机器战胜人到底是不是忽悠?】的竞拍,如果持有不同见解,钛妹欢迎你来参与竞拍,观点PK,不服来战!)

再可怕的怪物也是有弱点的,AlphaGo为什么会下臭棋让大家大跌眼镜,围棋人工智能第二代第三代的死穴是什么?

围棋人工智能第三代的死穴在哪儿?

韩国围棋界曾获得多项世界冠军的职业九段李世石对阵谷歌计算机AlphaGo的人机大战,三连败之后,执白棋居然扳回一局。

大众把此场围棋人机大战看得太重,看作人脑跟电脑的彻底较量,其实不然,因为比试的只是围棋一样东西。围棋人机大战人类若输了,不等于人脑就从此比不上电脑了。

实际上,围棋虽然变化复杂,但理论上并非变化无穷。毕竟可以看作一道数学题目,可以用计算机来编程运算从而得到解答。假以时日,人类在下棋这一方面迟早难以与电脑匹敌。就算李世石三连败之后能扳回两局,那就怎么样呢?下围棋这一方面人类迟早是敌不过人工智能的。

围棋人工智能第一代算法使用的就是穷举法,试图把所有的下法都算出来,然后选择必胜的下法。但是因为围棋的变化委实太多,暂时无法办到。

第二代算法,是抽样评估选择胜率最高的算法,大大减省了运算量,使人工智能终于能跟业余围棋选手较量。

谷歌AlphaGo是第三代算法,利用人工智能自我学习的能力使己身棋力突飞猛进。看上去似乎已能辗压世界顶尖职业高手的AlphaGo,第四局居然爆冷下臭棋落败,是出了什么问题?

Alpha Go的算法是有问题的。第三代算法的问题实际上也是第二代算法的问题,因为第三代算法是基于第二代算法的抽样评估再加以自我学习。就算Alpha Go可以自己跟自己下棋提升棋力,它之所以能这样下棋还是基于抽样评估。

抽样评估是有弱点的。胜率高的下法不一定就是正确的下法,毕竟这只是统计。有些冷门下法,也许反而能出奇制胜。

Alpha Go下臭棋时思考速度特别快恰恰说明此时的样本少。李世石78手是奇招,会下这一手的棋手很少,AlphaGo按照程序运算的结果自以为李世石胜算不高,特别快地作出了反应。这是一个天大的错误。

跟围棋程序下过棋的棋手都有这么一种感觉:电脑在劣势时应对特别混乱。不单AlphaGo,Zen也是这样。因为电脑处于胜率低的情况已经不好思考了。按照样本统计,处于胜率低的情况下当然是落败的多,反败为胜的样本可不好找。胜率越低的情况,AlphaGo的思路越混乱。在极端情况下,也许找到的样本中胜率低的一方已经投子认输了,没有后续的棋谱,AlphaGo于是不懂该怎么办了。

Alpha Go的失败也是人类的失败,毕竟的程序也是人类编出来的。另一方面,也是因为算法基于人类的样本,导致了AlphaGo的失败。如果有应对李世石那一招的样本,AlphaGo也不至于如此判断出错。

Alpha Go之父哈萨比斯说:“AlphaGo的训练并没有专门针对李世石先生,而是像对普通棋手比赛前一样,做的只是日常的准备。AlphaGo备战就是从网上下载很多业余棋手的棋谱研究,没有什么特别之处。”随后又说,“要针对某一个棋手备战也很难,我们至少需要数百万甚至上亿的棋谱,才能整体提供给AlphaGo,它才能接收并进行深度学习。”

哈萨比斯的话也证实了围棋人工智能第二代第三代的死穴,也就是样本评估的问题。像李世石反败为胜这样的奇招,能找到的样本实在太少。AlphaGo明显需要有大量职业棋手的优质且非常全面的对局作为参考,这可不好办到。

围棋贴目难题仍待解决

第四局,李世石执白棋反而能获胜,这是一件很匪夷所思的事。因为黑棋有先手优势,胜率更高。

围棋人机大战引出了一个长期困扰围棋界的问题,就是围棋规则中关于贴目的规定。不玩围棋的人可能不知道,但围棋迷都清楚。执黑棋的棋手是先手,享有优势,故为了公平起见,黑方需要向白方贴目。

1949年(昭和24年)日本棋院围棋规则规定:黑方贴4目半。从1955年的第3期王座战起,黑棋贴目从4目半改为5目半。但是根据统计,黑方仍然占了优势。截止到2001年底,在日本棋院近5年来进行的1.5万盘正式公开棋赛对局中,(黑贴5目半的情况下)黑棋胜率达到了51.86%。执黑执白的胜率之差虽然不大,但在争夺激烈的围棋大赛上,这样的差距足以致命。

在国际棋赛中实力明显占优的韩国率先在大多数棋赛中改用6目半制。中国也从2002年春天起,全部改贴3又3/4子(相当于7目半)。日本棋院对于实行了50年的黑棋贴5目半的制度也实行了改革,将部分比赛向中韩靠拢, 2003年开始全部采用黑棋贴6目半规则。

截止到2014年底,中国大陆主办的贴3又3/4子(相当于7目半)的世界大赛共有380盘对局,其中黑胜200局,胜率为52.6%(前3届春兰杯相当于贴5目半,未计入)。而台湾举办的应氏杯(贴8点,也相当于7目半)则是黑胜100局,白胜97局。由此可见,即便是贴7目半,黑方似乎还是略占优势。

那么,到底黑方要向白方贴目多少才绝对公平?目前这个数值只是根据大量人类对局作统计得出的,并非数学上的完美无懈的解答。

也许,让AlphaGo学金庸武侠小说中的周伯通和郭靖左右互搏,自己左手跟右手下棋,然后通过大量内战结果统计出贴目的合理数值?No,这也不是完美的解答。

前面说过,AlphaGo之所以能自己跟自己下棋,还是基于对人类对局的抽样评估。这跟直接对人类对局进行统计没什么两样。

完美的解答,还是要回到最初,用最原始的穷举法,找出下围棋的最优解。这样,才能彻底制订贴目的数值。只是不知道,运算量这么大的工程,不知道要到什么时候才能实现?

我们倒是可以设想一下围棋得到彻底破解之后的情景:某国际围棋大赛在万众瞩目下开始了,执黑棋的棋手才下了第一子,裁判当即宣布,执白棋的棋手不用下了,比赛结果已定,谁胜谁负或是打成平手已经水落石出。观众一片欢呼。

AlphaGo玩麻将怎么样兼论桌游设计的随机性

围棋人机大战人类虽然输了,但有些网友表示,人类的智慧还有中国麻将守着(详见钛媒体文章《赢了围棋冠军不算什么,阿尔法狗敢不敢挑战麻将?|钛搞了》)。但中搜网络创始人、北京围棋业余赛冠军陈沛对采访他的记者说:“要是麻将,人类会输得更惨!麻将一共就那么多张,很容易算出来的。”

然而,陈沛的话其实是错的。假设有个傻大木,他都不太会玩麻将,但他就是运气好到爆棚,一开局就自摸十三幺,请问AlphaGo可有破解高招?

麻将这类棋牌游戏因为随机抽牌,是有运气成分的。

有网友就戏言:假如打麻将时三个人联手对付AlphaGo,AlphaGo会输得很惨。这虽然是作弊了,但也道出了一个大问题:在多人游戏中,局面变得异常复杂,人工智能要如何才能应对?

比如说,三个人跟Alpha Go打麻将,虽然没人作弊,但是甲玩家技术不行打错了牌导致乙玩家得利,这是Alpha Go所无法控制的。

说起来,AlphaGo要学习打麻将,也是得基于对大量人类对局的样本评估。Alpha Go只能弄明白什么样的打法胜率较高,然而打麻将并没有所谓必胜的打法。

围棋的棋子摆在棋盘上是明眼可见的。不知大家有没有听说过一种“暗棋”,就是将象棋的棋子反过来盖上再玩的。陆战棋也有暗棋的玩法。麻将其实也跟暗棋玩法类似,牌是盖起来玩的。盖起来的棋牌是什么,还得猜测。Alpha Go顶多是通过计算进行评估,盖起来的棋牌是什么的可能性比较大,不可能准确推理得到唯一结果。也就是说Alpha Go永远无法进化到100%获胜的地步。

围棋没有运气成分,而麻将有着运气成分,两者都有自己的魅力。

广义上,围棋、麻将这些棋牌游戏,其实是属于桌游的范畴。围棋的英文是“Go”,AlphaGo的“Go”就从此而来。围棋跻身BGG桌游排行榜前100名,是中国棋牌类游戏排名最高的。

在民间,实际上像象棋、围棋这类没有运气成分的棋牌(桌游)已渐趋没落。现在关注围棋人机大战的网友,又有多少人是围棋迷呢?

因为大众想要的更是娱乐,像象棋、围棋这类没有运气成分的,玩起来水平发挥比较稳定,高手就是高手,一般人很难赢得了,除非你能找到棋力刚巧跟你一个水平档次的,不然玩起来没意思,强的太强弱的过弱。

故此,新兴桌游的设计宗旨,都是要保证随机性,要有运气成分。像万智牌、游戏王和炉石传说之类随机抽牌,飞行棋、大富翁之类掷骰子,都是产生随机数,带来运气成分。有了运气成分,所有玩家发挥出来的水平就不至于相差太远,能凑到一起玩个痛快。

另一方面,没有运气成分的棋牌(桌游),因为理论上一定存在最优解,最优解一旦出来后,肯定让人兴致大减。围棋就是因为变化委实太多,至今仍未有最优解,所以能存活到今天。现在,AlphaGo并没有彻底击败李世石,看起来围棋的生命力仍然很顽强。(本文首发钛媒体)

随意打赏

提交建议
微信扫一扫,分享给好友吧。