微软麻将AI超越人类后研究团队要出教材提升人类牌技

网易科技 • 5年前扫码分享

（原标题：微软麻将AI超越人类后，研究团队称有意出教材提升人类牌技）

澎湃新闻记者王心馨

人类以后想提升自己的麻将技能，可能要拜人工智能为师了。

微软亚洲研究院研发的麻将AI系统Suphx在国际知名专业麻将平台“天凤”上荣升十段，且超越99.99%的人类后，研究团队在接受澎湃新闻（www.thepaper.cn）采访时称，有日本出版社有意联系，准备把Suphx打的牌谱出一本书，如果对麻将感兴趣的，大家可以通过这本书来学怎么打麻将。

4月9日，微软亚洲研究院Suphx研发团队通过线上直播，详细介绍了Suphx的技术细节，其论文近日在arXiv平台上发布。直播结束后，微软亚洲研究首席研究员秦涛、微软亚洲研究院高级研究工程师李俊杰在接受澎湃新闻采访时表示，团队目前正在和天凤平台协商，看是否考虑推出类似提升人类牌技的服务。例如，通过输入一个人当前的牌面，Suphx会告诉这人该打哪张牌，以及它为什么打那张牌。

有意思的是，据两位研究员透露，有日本出版社在联系，希望Suphx打的牌谱出一本书。“因为有麻将爱好者将 Suphx 称作麻将教科书、Suphx老师，如果对麻将感兴趣同学们，他们可以通过这个书来学怎么打牌。 ”

Suphx如何提升牌技

去年8月，微软亚洲研究院在世界人工智能大会上正式宣布由其研发的麻将AI系统Suphx成为首个在国际知名专业麻将平台“天凤”上荣升十段的AI系统。

在过去半年多的时间里，研究团队对Suphx又进行了调整。具体来说，一是把整个系统架构进行了重新的优化，使它更快、更好。另一个是，在算法上也做了改进，比如“先知教练”。从博弈论的角度来看，麻将是多人非完美信息博弈。麻将一共有136张牌，每一位玩家只能看到很少的牌，包括自己的13张手牌和所有人打出来的牌，更多的牌是看不到，包括另外三位玩家的手牌以及墙牌。面对如此多的隐藏未知信息，麻将玩家很难仅根据自己的手牌做出一个很好的决策。

但通过先知教练，Suphx可以可以看到所有的信息，包括(1)玩家自己的私有手牌，(2)所有玩家的公开牌，(3)其他公共信息， (4)其他三个玩家的私有手牌，(5)墙牌。只有(1)(2)和(3)是正常的玩家可以获得的，而(4)和(5)是只有“先知”才能获得的额外的 "完美 "信息。

在Suphx中，Suphx研发团队首先使用包括完美信息在内的所有特征来对“先知”进行强化学习训练，在这一步中控制“先知”的学习进度，不能让其过于强大。然后，通过对完美特征增加mask逐渐使“先知”最终过渡到正常AI。接着，继续训练正常AI并进行一定数量的迭代，采用衰减学习率和拒绝采样的技巧来调整训练过程，让AI的技术不断精进。

正如AlphaGO一开始以人为师，升级后，开始自己“左右互博”，不断提升。秦涛在采访中表示，Suphx也尝试过完全不用人的数据做训练，直接用self-play，是可以做好的，只不过是训练速度会慢一些，这也涉及到背后算法要做一些新的改动，让计算机学得更快。

未来可用在股票操盘上

Suphx会打麻将只是第一步。两位研究员称，团队正在金融行业和物流行业做一些尝试，让Suphx技术落地实际应用场景。

在金融领域里，如果我们能提前知道明天股票行情是，那么今天的投资肯定会做得很好，这在某种程度上就是完美信息。例如，今天A股已经闭盘了，那么我们就知道了今天所有的股票信息，当我们再回头看昨天，假设昨天做决策的时候就知道了今天股票的信息，那对股票操作来说就是完美信息。研究员认为，在这种情况下可以利用完美信息，帮助我们把模型训练得更好。实际应用的时候就像麻将里面一样，通过完美信息，我们可以得到一个非常强大的老师――Teacher model，这样学生模型student model也会学的很好。

在机器翻译领域中，完美信息也很有帮助。比如在机器翻译中，如果知道一句话的上下文，可能它翻译得更好，即完美信息。但实际中不一定每句话我们都知道它的上下文，但是训练中我们可以拿到完美信息，就可以帮助我们将翻译做得更好。

还有哪些不足

从此次发表的论文看，Suphx的技术表现堪称完美。但在两位研究员看来，未来Suphx还有进步的空间。

“比如我们现在很多时候还是用了高手的数据训练一个模型，然后再到强化学习，但是我们有不同的麻将平台及规则，不一定所有的平台都能拿到人类的数据，在这种情况下怎么能不用人的数据直接从0开始，这是我们在做的一件事情。”秦涛说。

相比围棋、象棋以及DOTA游戏，麻将的随机因素很多，这对模型的训练和测试都会带来很大的影响。据研究团队透露，他们的模型在测试的时候基本上会跑100万场游戏，才能明确地知道谁更厉害，这就跟围棋很不一样，围棋五局三胜，麻将不同。这种情况下如何更快地完成对弈，得出可信赖的结果，也是团队在研究的一个问题。

最后，团队还在考虑，Suphx能针对性地，面对不同的对手采取一些自适应策略。