Facebook成功打破纸牌游戏Hanabi的AI系统得分纪录

网易科技 • 5年前扫码分享

据外媒Venture Beat报道，Facebook 人工智能研究院（Facebook AI Research，FAIR）称，他们推出了一个与纸牌游戏Hanabi相关的最新AI项目。AI系统的得分是24.61分（满分为25分），而之前最好的系统得分是23.92分。

今年2月，来自Google、DeepMind、卡内基梅隆大学和牛津大学的研究人员提出了Hanabi基准，并提出了更多的人工智能可以玩这个游戏，以实现“人工智能研究的新挑战”。参与该项目的研究人员认为，弄清楚怎样玩好Hanabi，这对于人工智能来说可能是一个重大进步，并且有助于其在聊天和自动驾驶等应用场景中与人类进行更加流畅的互动。

与国际象棋或围棋这些AI挑战人类的其他游戏不同，Hanabi是一种合作游戏，参与者可以共同努力，朝着一个共同的目标努力。这款游戏最大的特点在于，牌是向着别人握的，玩家看不见自己的牌，但所有其他人都看得见。大家的目标是下牌到桌面上让五种颜色的牌都顺着从1到5排列出来。

曾经发表过相关论文的牛津大学研究员Jakob Foerster说，“Hanabi是一个关于沟通和合作的游戏，人工智能目前还没有深入这一游戏领域。”

“其中一件非常令人兴奋的事情是，我们所观察到的改进，与通过深度强化学习所观察到的改进，是完全正交的：你可以在任何策略之上加上这个，效果会更加强大。”Facebook AI研究员Noam Brown在电话采访中这样告诉VentureBeat。“我们看到的结果远远超出了我们或其他研究人员的预期。实际上，我们从搜索中获得的好处，要强于过去使用的所有深度强化学习算法所获得的好处。”

据了解，这次Facebook的Hanabi AI项目借鉴了Pluribus的一些搜索技术，Pluribus是Facebook于今年早些时候推出的一款玩扑克的AI，击败了一些人类冠军。

报道称，Facebook的AI团队通过将搜索技术与深度强化学习结合起来实现了这一壮举。搜索算法把一个代理之外的所有代理执行商定的策略将问题转换为单个代理设置，这是一种被称为“蓝图”（blueprint）的强化学习算法。根据一篇题为“通过在合作部分可观察的游戏中搜索来改进策略” 的论文，这一算法允许搜索代理“将其他代理的已知策略作为环境的一部分进行处理，并基于其他行为来维护对隐藏信息的信念。”