在DOTA2中获胜的AI真的比AlphaGo厉害吗?
大数据文摘作品
编译 | 姜范波 Aileen
这个周末的科技圈再次被“AI恐惧”刷屏,这次打败人类的AI来自Elon Musk的OpenAI。昨天凌晨的DOTA2人机大战中,顶级人类玩家Danylo “Dendi” Ishutin被AI完败。
到底这次人机大战意义何在?这次在一对一DOTA2中打败Dendi到底比AlphaGo更难还是更容易?众说纷纭中,我们认为前谷歌大脑和斯坦福研究员Denny Britz的这篇评论文章相对中肯和理性,也得到了不少学者的力挺:”这个问题实际上比击败人类围棋冠军容易得多。我们并没有在AI中突然进步。”
DOTA界的大神们在昨天受到了暴击,在堪称“DOTA圈世界杯“的T17邀请赛中,顶级人类选手被OpenAI训练了两周的AI打败。各类如”攻陷DOTA2″,”完虐人类“的字眼纷纷出现,不免让人想起之前AlphaGo大战柯洁的盛况。
Elon Musk本人也在推特上强推了这次人机大战,他认为DOTA2比围棋复杂很多,所以这次获胜的机器人也比AlphaGo要厉害。当然,马斯克也没忘记再次提起AI和所有事物一样需要被监管。重提几个星期前和众多技术大佬吵得沸沸扬扬的旧梗,让不少人怀疑这是为了媒体炒作吸引眼球。
前谷歌大脑和斯坦福研究员Denny Britz就这件事发表了自己的看法:
“这是一个令人赞叹的成就,但也不是媒体想让你相信的AI大突破。”
“过度炒作AI进展真的是危险的,Elon Musk的推特会误导大家。”
Denny Britz相对客观的罗列了这件事的成就和浮夸之处,以下是全文的编译:
当我看到今天OpenAI的DOTA2机器人在国际(The International)电竞大赛上击败人类玩家的消息时,我兴奋得跳起来。
该锦标赛的奖金池超过了二千四百万美元,作为一名电竞运动迷,我虽然从来没有玩过DOTA 2,但是我经常在线上观看其他电竞比赛,高中时还是半专业选手。但更重要的是,像DOTA这样的多人在线战术竞技游戏(MOBA),以及“星际争霸2”这样的实时战略(RTS)游戏,被视为超越了当前人工智能技术的能力。这些游戏需要长期的战略决策,多人合作,并且相比AI技术在过去几十年中“解决”了的国际象棋,围棋或扑克类游戏,具有明显更复杂的状态和动作空间。 DeepMind已经在星际争霸2上工作了一段时间,几天前发布了他们的研究环境。到目前为止,研究人员还没有取得重大突破。据认为,我们仍需要至少1 – 2年才能在星际争霸2上打败人类。
这就是为什么OpenAI今天这条消息如此令人震惊。 怎么会这样呢? 难道我错过了最近AI发展的重大突破? 当我开始更多地了解DOTA 2机器人正在做什么,它是如何训练的,以及它的游戏环境后,我得出的结论是,这是一个令人赞叹的成就,但也不是媒体想让你相信的AI大突破。
本文的目的是: 对于哪些才是真正的新东西,我愿意提供一个理性清醒的解释。过度炒作AI进展真的是危险的,比如Elon Musk昨天误导人的推特(参见文章开头的截屏)。
首先我要说明,炒作或不正确的假设并非OpenAI研究人员的错误, OpenAI传统上一向对其研究贡献的局限性非常直观明了,我相信在他们今天也一如既往。 OpenAI还没有公布他们方案的技术细节,所以对于外行而言,很容易就得出错误的结论。
我们先来看看DOTA 2机器人解决的问题实际上有多困难。跟AlphaGo相比怎么样?
- 1对1与5对5是没有可比性的。在DOTA 2的一个基本游戏中,一队5名选手对阵另外5人。这些游戏需要高级战略制定,团队沟通和合作,通常需要45分钟左右的时间。而1对1的游戏受到更多限制,两名选手基本上沿着单线行驶,并试图杀死对方,通常在数分钟内结束。在1对1中击败对手需要机械技能和短期战术,但没有任何对当前的AI技术来说具有挑战性的需求,如长期规划或团队协调。事实上,你需要采取的有效操作数量少于围棋游戏。有效的状态空间(玩家对游戏中当前局面的掌控),如果以比较聪明的方式表示,应该比围棋还要小。
- 机器人可以访问更多信息:OpenAI机器人(很可能)构建在游戏机器人API之上,可以访问人类无法访问的各种信息。即使OpenAI研究人员限制其访问某些类型的信息,机器人仍然可以访问比人类更准确的信息。例如,某项技能只能在一定范围内击中对手,而人类玩家必须观看屏幕并且估计当前与对手的距离,这需要练习。机器人知道确切的距离,并可立即决定是否使用技能。获得各种精确的数字信息是一个很大的优势。事实上,在游戏过程中,可以看到机器人数次在最大距离上使用技能。
- 反应时间:机器人可以立即反应,人类却不能。再加上上述的信息优势,这是另一大优势。例如,一旦对手超出特定技能范围,机器人可以立即取消某项技能的使用。
- 学习使用一个特定的角色:游戏中有100个不同的角色,具有不同的天赋能力和优势。机器人学习玩的唯一的角色是Shadow Fiend,通常会立即进行攻击(而不是在一段时间内持续的更复杂的技能),作为机器人,得益于信息优势和快速的反应时间。
鉴于1对1主要是机械技能的游戏,AI击败人类玩家并不奇怪。对OpenAI而言,由于环境受到严格限制,(很大可能)可用的操作也受到限制,而且很少或者完全没有进行长期规划或协调的需要,我得出的结论是,这个问题实际上比击败人类围棋冠军容易得多。我们并没有在AI中突然进步。它的成功,是因为我们的研究人员用正确的方式,聪明地设置了需解决的问题,把当前技术用到极致。据说机器人的训练时间大概是2周左右,也说明真相确实如此。 AlphaGo需要在Google的GPU集群上进行数月高强度的大规模培训。从那以后我们取得了一些研究进展,但并没有将计算要求降低一个数量级。
现在,批评够多啦。新闻炒作可能有点过度,但不妨碍这次人机大战的胜利依然很酷的事实。显然,大量具有挑战性的工程和合作建设才实现这一切。下面这次DOTA机器人很厉害的地方:
- 完全通过自我训练:这个机器人不需要任何训练数据,它也不会从人类的演示中学习。它完全随机开始,并且不断地跟自己对练。虽然这种技术并不是什么新鲜事物,但令人惊讶的是(至少对我来说),机器人自己就学习到了人们使用的技术,如Reddit和Ycombinator上评论中所提出的。我不太了解DOTA 2,所以无法判断这一点,但是我觉得非常酷。机器人可能还有其他人类不知道的技术。这与我们在AlphaGo中看到的类似,人类玩家开始从其非常规的动作中学习,并调整了自己的游戏方式。(有兴趣的读者可以阅读这两个论坛的讨论: https://news.ycombinator.com/item?id=14996448 和 https://www.reddit.com/r/MachineLearning/comments/6t58ks/n_openai_bot_beat_best_dota_2_players_in_1v1_at/dli3zpp/ )
- AI +电竞需要迈出的一大步:在具有挑战性的环境(如DOTA 2和Starcraft 2)上来测试新的AI技术非常重要。如果我们可以说服电子竞技社区和游戏发行商,我们可以通过将AI技术应用于游戏来提供价值,我们可以期待得到大力支持,这会加速AI进展。
- 部分可观察的环境:虽然OpenAI研究人员如何用API处理这个问题的细节尚不清楚,但是人类玩家只会看到屏幕上的内容,并且可能在视角上会有一些限制,比如上坡下坡的树林阴影。 这意味着,与围棋或象棋或Atari(更像扑克)这样的游戏不同,我们处于部分可观察的环境中——我们无法访问有关当前游戏状态的完整信息。 这些问题通常难以解决,是急需更多进展的研究领域。 话虽如此,目前还不清楚1v1 DOTA2比赛的部分可观察性是多么重要——这里也没有太多可以策划的。
所有这些中,最重要的是,我非常期待可以看到OpenAI的技术报告,看看他们到底是怎么搭建这个系统的。
参考文章:http://www.wildml.com/2017/08/hype-or-not-some-perspective-on-openais-dota-2-bot/