人机大战再上演,玩德扑的“阿尔法狗”来了
在Master“围剿”围棋顶尖高手之后,人工智能又盯上了德州扑克。这一次出场的选手是来自卡内基梅隆大学(CMU)开发的人工智能选手“Libratus”。
从美国时间1月11日开始,一场名为“大脑对战人工智能:加大赌注”(Brains vs. Artificial Intelligence: Upping the Ante)的巡回赛,将在匹兹堡的河流(Rivers Casino)赌场进行,Libratus将和4位人类顶尖职业选手展开对决。四名职业选手分别是Jason Lee、Dong Kim、Daniel McAulay和Jimmy Chou。
赛程为期20天,总共将对战12万手牌,无限下注,获胜者将获得20万美元的奖金。
与之前的AlphaGo战胜李世石,Master横扫60位顶尖选手的围棋不同,德州扑克是一种不公开、信息不对称的游戏,每个选手都只能在看到自己的手牌。也就是说这是一场非完美信息对称游戏。
此前,人类已经在有限下注的德扑当中战胜过人类。不过,在有限下注的游戏中,全部的决策点(decision points)只有不到10的14次方个。而一对一无限注中包含10的160次方个决策点(decision points)。
不过,在CMU宣布在宣布Libratus的比赛之前,有一件事多少抢了Libratus的风头。
上周,著名的论文网站 Arxiv 出现一篇题为《DeepStack:无限下注扑克里的专家级人工智能》(DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker)的论文,作者是来自加拿大Alberta大学、捷克Charles大学、布拉格捷克理工大学的研究人员。DeepStack称为第一个在限下注德扑中获胜的人工智能程序。
研究者称,在一项有数十名参赛者进行的44000手扑克的比赛中,DeepStack 成为第一个在一对一无限注德州扑克中击败职业扑克玩家的计算机程序。
不过,虽然DeepStack占据了先发优势,可是因为是以论文的形式呈现,引发的关注度就要逊色一些。从2016年11月7日到12月12日共计4周的时间里,来自17个国家的33名选手跟 DeepStack 进行了较量,比赛在线上举行,共计进行了44000手。由于在线上进行,一个选手最多可以同时玩四局。排名前三(以AIVAT计)的选手分别获得5000加元、2500加元和1250加元的奖励。
而CMU的Libratus走的是阿尔法狗的路数,公开透明,把地点直接设在赌场当中,奖金也丰厚得多,获胜者将摘得20万美金。12万手的交锋相当于前者近三倍,从统计学上也更有说服力。而且,参与的选手也更有分量,有专家质疑DeepStack的对战选手中没有顶级高手,但是Libratus对战的选手则都是世界顶级选手。
然而在决策机制上,Libratus却又与阿尔法狗大相径庭。据报道,由于德州扑克是信息不对称的博弈,因此Libratus采用的是“纳什均衡”的策略,通过平衡风险与收益来决定自己的下一步。纳什均衡追求的是最安全而不是最极致的利益。
纳什均衡的经典案例就是“囚徒困境”。1950年,数学家塔克任斯坦福大学客座教授时讲过这故事。
假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:
如果你俩都坦白罪行,交出脏物,都会因盗窃罪被判8年。
如果你的同伙坦白了而是你抵赖了,你将会以妨碍公务罪加刑2年,而你的同伙因举报有功被减刑8年,立即释放。
如果你俩都不坦白,则警方因证据不足不能判偷窃罪,但可以私入民宅罪将两人各判1年。
画个表格分析一下:
从这张表里可以看出,两人都不坦白是最好的结果。可问题是,警方把两人分开审讯,形成了“不完整信息博弈”。你无法保证你同伙的人品如何。这时如果你为了利益最大化,选择了不坦白,而你的同伙却把你出卖了,那你就成了最大的输家。这个时候纳什均衡的最佳选择就是,果断坦白。这样至少你会得到和你同伙一样的待遇,而你的同伙如果贪心,你就赚大了。
换句话说如果你遵循纳什均衡,最坏的结果是:和对手打了个平手。也就说,在这一策略当中,只要其他玩家的策略保持不变,单一玩家就无法通过变换策略获益。
反映到德扑上,如果Libratus每次的选择都能实现纳什均衡,那么结果很可能是:虽然在某些回合中,人类选手会占得上风。但是在12万手的交锋中,机器大概率会成为赢家。
值得一提的是,早在2015年时,CMU的AI程序Claudico就在无限下注的比赛中跟德扑顶尖高手交过手,共计进行了8万手。不过,在这一次比赛当中,AI程序被狂虐,排在倒数第二名。当时参与的选手有Bjorn Li、Doug Polk、Dong Kim、Jason Les。
需要指出的是,Dong Kim、Jason Lee在这一次比赛当中还会参加。在2015年的对战当中,他们分别排在第三和第五的位置。
在Claudico落败之后,它的设计者Sandholm依然相信,在未来人工智能将很快能够击败任何领域的顶尖人类玩家。经历一年半的闭关修炼之后,不知道这一次CMU的AI选手能不能一雪前耻?对于比赛的结果,你有什么看法,欢迎留言。