德扑人机大战落幕,最全复盘解读!
【编者按】经过20天的鏖战之后,四位顶级人类扑克高手,在这场德州扑克人机大战中,总共输给 人工智能 (AI)选手共计176.6万美元。四天之前,这个数字仅仅是106万美元。本文为此次人机大战的详细解读,一起来回顾下。
本文转载自公众号量子位,作者舒石,亿欧编辑,供行业内人士参考。
AI一路碾压人类高手
怎么描述这20天令“人”精疲力尽的比赛?笔者觉得,还是先放一张图表吧。一图胜千言~
这张图代表了从1月11日比赛开始,到1月30日比赛落幕,人工智能德州扑克选手Libratus的每日战绩。在整整二十天的时间里,Libratus没有一天以输钱告终:从第一天“仅仅”赢下7万美元,直到最后一天累积下200多万美元的优势。
曲线清楚的告诉我们,整个比赛期间,人工智能至少有两天明显出现了状态下滑。然而人类选手们没有一次能够把胜利延续下去。
整个比赛期间,Dong Kim都充满挫败感,而他已经是四位人类高手里面,对战成绩最好的那个。大约两年前,Kim曾在同一个赌场击败了这个人工智能的前身。在这场为期二十天的比赛刚刚过半之时,Kim就直言:人类已经没有真正获胜的机会。
每一天,Libratus都会进步。人类选手很难找到它的漏洞。即便找到一个漏洞,第二天就会消失不见。上面的曲线也正说明了这一点。
而且之前的最终战果也表明,四位人类高手里面,Dong Kim输得最少:总计8.5万美元;而Jason Les输的最多:88万美元。
揭秘:复盘AI的德州扑克 战术
AI究竟是怎么打德州扑克的?来,我们复盘两局看一下。
第一盘:人类赢了
每一局都有200盲注。
Kim这局是庄家,下注274。Libratus跟。首三张公共牌是:黑桃6,红桃5,黑桃4。机器下注274,Kim跟。第四张开出的公共牌是:红桃8。Libratus再次下注274,而Kim则直接下注3151。Libratus的选择是继续跟。
最后一张公共牌是:黑桃9。这意味着,牌局有可能出现“同花”。电脑直接下注15000,再次把赌注翻番。Kim有点犹豫,但还是跟进开牌:他手上是个最高为9的顺子。而Libratus手上是一张黑桃8,和一张梅花8,显然刚才电脑是在诈唬。
第二盘:AI赢了
人类高手Jason Les当时以一对10开局,一张是方片,一张是红桃。翻牌之后,首三张公共牌是:K、9、4,其中有两张梅花。下注继续。在这种局面下,AI按理说应该希望再出一张梅花,凑成一个同花。
第四张公共牌,发出一张5,不是梅花。当时,两边都已经看牌。最后一张公共牌,是一张Q,也不是梅花。然后,人工智能突然压上了所有的筹码。
面对这个局面,Les选择不跟。人工智能赢下一手。
与此同时,Les的拍档Dong Kyu也在一模一样的局面里,但是又有所不同。为了消除运气的影响,这次人工智能和人类玩家的对决,被安排成两对一模一样的牌局。区别是,在镜像局里人类玩家和人工智能手上拿到的牌,进行了对调。
Kyu手上是梅花7和梅花3。这意味着,在主局里面对人工智能的疯狂押注,Les如果果断跟进的话,绝对是稳赢的一手牌。雪上加霜的是,在镜像局Libratus早早为手上的一对10下了重注,最后Kyu也选择不跟,放弃了这手牌。
Libratus经常特别激进的下注,下注的额度远远超过底池里的额度。“其实人类并不这样,通常不会为了赢一点钱,冒着输掉很多钱的风险”,扑克高手Doug Polk说,“但人工智能没有这种心理,它只看怎么玩更好”。
会打扑克的AI有什么用?
Libratus在德州扑克人机大战中获得最终的胜利,是人工智能领域的巨大成就。玩扑克需要推理能力,而这对于机器来说很难模仿。虽然人工智能在跳棋、象棋乃至围棋比赛中,已经完胜人类对手,但无限注德州扑克是一个完全不同的情况。
这是一场“不完美信息”游戏。
由于一些卡牌并没有发出来,在德州扑克的对局里,任意时间,任何一个玩家,都只能观察到一部分的情况。要赢,他们需要直觉:一种猜测其他玩家手上是什么牌的能力。而且还要考虑到对手每一种可能的打法,想得到理想的战略非常困难。
现实世界中,不完美信息才是常态,各种看不见的隐藏信息产生了大量的不确定性,而德州扑克代表的就是这种类型的博弈。在围棋界纵横无敌的AlphaGo,本质上处理的还是完美信息博弈,而AlphaGo无法处理德州扑克的问题,更遑论使出诈唬。
未来Libratus这样的AI,可以用于商业谈判、网络安全、医疗方案制定等领域。
去年,Libratus的创建者Sandholm曾经领导开发了一个打扑克的程序Claudico,但是在一场面对数位高手的比赛中被痛殴。Sandholm解释说,Libratus的水平提升基于几个技术进步,包括一个新的平衡近似技术,以及几种新的方法来分析可能的结果。
人工智能发展的终极目标,是通用人工智能(AGI)。通用人工智能可以解决任何一个问题,而不是像Libratus或者AlphaGo这样只能专注于扑克或者围棋。想要实现AGI就得让人工智能学会解决不确定性问题,这也是此次人机大战的重大意义之一。
在下面这段视频里,Libratus的两位创建者,详细解释了扑克人工智能的重大意义。
人机大战背后的 超级计算机
每个牌局结束后的夜晚,匹兹堡超级计算中心的 Bridges 电脑执行计算,用以优化Libratus的策略。而在白天的比赛过程中,Bridges用于计算每一手的终结游戏策略。
Libratus来自卡内基梅隆大学,而Bridges又是谁?
Bridges不是当今世界最大、最快、最强劲的超级计算机。但它可能是面向公众开放的,最大、最快、最强劲的超级计算机。
研究生物学、地质学、考古学、经济学和其他社会科学的科学家们,都可以得到Bridges的帮助。而此前,这些科学家通常没有机会利用超级计算机,来处理相关领域的大量数据。而这就是Bridges最大的意义所在。
卡内基梅隆大学(还是这个大学,因为它就位于匹兹堡)的教授Jay Apt说,在Bridges的帮助下,原本在个人电脑上要耗时数月的计算,仅仅几个小时就搞定了。
超级计算机本质上是几个计算机联网在一起,以一个整体进行运算。通常要使用2500个电缆连接组件,如果连在一起,可以绕地球……不是,大约是7.2公里。
Bridges的机房有一个双锁的大门,需要用钥匙卡和访问码才能进入。Bridges由27个机架组成,每个大约1.8米高,堆叠的计算机共有三排。冷气从地泵吸入用以冷却。
Bridges提供三种类型的计算选项,称为节点:常规、大型和超大型。常规内存节点具有128GB内存,大约是高端笔记本计算能力的8倍。常规节点共有800个。
Libratus在600-700个节点上运行,这些节点的小子集在打牌时做出决定。而其余的工作则是改善Libratus,让这个人工智能程序可以玩得更好。