冷扑大师发明人：相比AlphaGo 冷扑大师有大挑战

网易科技 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

【网易智能讯11月9日消息】昨日，由新智元主办的AI World 2017在北京举行，会上，卡内基梅隆大学教授、冷扑大师发明人Tuomas Sandholm发表了演讲，阐述了冷扑大师的研发过程及未来应用。

Tuomas Sandholm称，冷扑大师是利用人工智能研发的策略选择（博弈理论）程序，冷扑大师的战略是结果导向的。

据Tuomas Sandholm表述，研发一款玩德州扑克的AI程序有两大挑战，也就是两大未知，一是德州扑克游戏中每位玩家拿什么牌要看机遇，“另一个未知是，我们不知道其他玩家的相关信息，但是对手也不知道我们的信息。”Tuomas Sandholm说到，当冷扑大师有了自己的牌之后，需要考虑对手的行为带来什么样的暗示，反之亦然。在这个时候冷扑大师会考虑均衡的实时运算。

Tuomas Sandholm过去的13年里一直致力于冷扑大师算法的研究，希望能够研发出一款打败人类的德扑AI程序。在今年年初，冷扑大师在匹兹堡的Rivers赌场，与世界上最好的4位不限注人类职业玩家进行了比赛，最终将4位人类职业玩家挑落马下，并夺走了共计176万美元筹码的奖金。

那么，冷扑大师到底是如何工作的呢？Tuomas Sandholm说，首先为冷扑大师输入游戏规则，但是与AlphaGo不同的是，冷扑大师不会去学习过去的德州扑克历史，因为德扑的游戏没有完整的信息。在输入游戏规则之后，采用抽象化算法，做成一个抽象化的游戏，采用了博弈理论，使用超级计算机和大量的GPU进行运算。另外，还要设立安全的子博弈，一旦发现错误，就要及时修正，这样让冷扑大师有了更大的安全性。但是，Tuomas Sandholm也承认，博弈理论无法将所有的情况都囊括其中，“包括小赌注、大赌注、All in，我们后续还会做补丁，不断完善冷扑大师。”Tuomas Sandholm。

对于冷扑大师未来的应用，Tuomas Sandholm说，对于深度学习探索，我们会持开放程度，未来冷扑大师也会在德扑之外更多的进行人机互动。冷扑大师未来可以用在很多战略推理方面，比如在金融方面，进行战略性资产组合；在企业战略中也有自己的玩法；还有在拍卖、虚拟安全、竞选、自动驾驶策略、军事、预防疾病感染、培训、娱乐等等方面，都有很大的应用前景。（小羿）

随意打赏

alphago zero alphago 李世石人工智能alphago alphago是什么 alphago 柯洁 alphago机器人 alphago之父谷歌alphago 战胜alphago alpha go