碾压1138支AI!腾讯『绝悟WeKick』在Kaggle足球竞赛中一举夺冠
你以为AI只会打王者?NO,踢足球也溜的很!
先来欣赏两个精彩片段:
快、准、直!一记完美的长传后,直射球门!
连续突破重围,轻松传球4次。
看到如此娴熟的球技,你是不是和小编一样误以为是人类,其实赛场上的球员全部是AI代理。刚刚完成传球、射门的黄色球衣球员正式腾讯的绝悟AI——足球版WeKick。
绝悟,是腾讯AI Lab与王者荣耀联合研发的策略协作型AI,上个月刚刚升级为完全体(让AI掌握了所有英雄的所有技能)。绝悟Wicke版是基于绝悟完全体迁移得到的,并针对足球任务进行了针对性调整。
WeKick刚刚参加完首届谷歌足球Kaggle竞赛,以上是赛场上传来的精彩片段。在这场全球顶级AI足球赛中,WeKick凭借1785.8分分绝对性优势,一举击败了1138支优秀团队夺得了本次竞赛的冠军。
这是绝悟完全体首次应用于足球任务,并参加大型国际足球赛事,取得如此成绩,可见其背后深度强化学习方法的通用能力。
与王者荣耀一样,足球赛也属于即时策略型游戏,需要AI具备长线思考、快速决策、处理复杂环境的能力。在本次竞赛中,一个球员需要一个智能体(11vs11赛制),AI代理不仅需要控制球员之间的相互配合,还要时刻观察对手的行为,并做出及时应对。
在瞬息万变的赛场上,这背后需要复杂的团队协作、实时决策和竞争策略。
那么,在如此高难度的挑战赛中,为何绝悟WeKick能够杀出重围,夺得冠军?
WeKick背后的三大优化策略
此次竞赛使用的是Google Research Football强化学习环境。
得益于深度强化学习在游戏领域突飞猛进,从Atari游戏,围棋,再到多种不同的视频游戏,AI智能体在不断迭代中变得越来越强,使足球运动团队策略的难关也得以被攻克。
与MOBA游戏中不断有经济、血量、经验等实时学习信号不同,足球的游戏激励非常稀疏,基本只能依靠进球,而稀疏激励一直是目前强化学习一大难题。
也就是说,单纯的从零开始完全采用强化学习来训练足球AI也相当困难。对此,腾讯AI Lab提出了三项改进方案:
-
基于绝悟完全体的架构迁移,定制自博弈化强化学习框架。
-
在特征与奖励设计上,生成对抗模拟学习(GAIL)与人工设计奖励相结合的方案
-
采用League (若干策略池)多风格强化学习训练方案。
首先是定制化框架,研究人员采用自博弈(Self-Play)强化学习来从零开始训练模型,并部署到异步的分布式强化学习框架中。
虽然该异步架构牺牲了训练阶段的部分实时性能,但灵活性却得到显著提升,而且还支持在训练过程中按需调整计算资源,使其能适应 11 智能体足球游戏训练环境。
此外,由于MOBA游戏和足球游戏任务目标存在差异,绝悟WeKick采用了生成对抗模拟学习(GAIL)与人工设计的奖励结合的方式,在特征与奖励设计上进行了扩展和创新。
该方案利用了生成对抗训练机制来拟合专家行为的状态和动作分布,使绝悟WeKick可以从其它球队学习。然后,再将 GAIL 训练的模型作为固定对手进行进一步自博弈训练,进一步提升策略的稳健性。
但这种通过自博弈强化学习得到的模型有一个天然的缺点:很容易收敛到单一风格。在实际比赛的时候单一风格的模型很容易发生由于没见过某种打法而表现失常,最终导致成绩不佳的情况。
因此,为了提升策略的多样性和稳健性,绝悟还采用了针对多智能体学习任务的League(若干策略池)多风格强化学习训练方案。
这种League多风格强化学习训练方案的主要流程可简单总结为先专精后综合,如下:
-
首先训练一个具备一定程度竞技能力的基础模型,比如运球过人、传球配合、射门得分;
-
接着基于基础模型训练出多个风格化模型。每个模型专注一种风格打法,在风格化模型训练的过程中会定期加入主模型作为对手,避免过度坚持风格,丢失基本能力;
-
最后基于多个基础模型训练一个主模型,主模型除了以自己的历史模型为对手以外,还会定期加入所有风格化对手的最新模型作为对手,确保主模型能够适应风格完全不同的对手。
内部能力评分系统显示,加入对手池训练以后的主模型,可以在基础模型的基础上提高200分,比最强的风格化打法高80分。
最后基于定制化的框架改进,生成对抗模拟学习(GAIL)方案以及 League (若干策略池)多风格强化学习训练方案,使绝悟远超过其他AI球员,取得了1785.8的高分。
Kaggle首届比赛,难度升级!
本届比赛是Kaggle首次针对足球AI领域发布的赛题。Kaggle是全球最大的数据科学社区和数据科学竞赛平台,创立于2010年。
由于足球运动团队策略因其复杂性、多样性和高难度,一直是困扰世界顶尖AI研究团队的难题,加上稀疏的游戏激励使其成为比MOBA游戏更难攻克的目标。Google Research联合英超曼城在Kaggle上举办了这场赛事,希望进一步推动多智能体技术研究。
基于此,不同其他AI足球赛事,本届比赛在难度上进行了大幅度升级,如前所述比赛采取11vs11赛制,参赛团队需要控制其中1个智能体与10个内置智能体组成球队。
当完整的足球独立智能体个数达到11个,强化学习的难度将随着智能体个数的增长呈现指数级的爆炸增长,而且足球智能体之间差距不大,如何自动形成角色分工以及在不同角色间的激励分配将成为各个团队多智能体强化的一大挑战。
在参加本届比赛之前,腾讯绝悟团队已经从足球比赛中的单个智能体控制转向多智能体同时控制、协同作战深入的研究方向。之前,在参加5v5形式(多智能体)的谷歌天梯比赛Google Research Football League中,腾讯绝悟团队也摘得了冠军。
此次,绝悟WeKick在足球竞赛中再次夺冠,可以看出完全体升级后的绝悟AI,其背后深度强化学习在处理复杂任务上的能力,以及其底层架构的通用能力。
腾讯AI Lab在智能体领域已开发多年,从围棋AI绝艺到MOBA游戏AI绝悟再到如今的AI足球队WeKick,其深度强化学习智能体步步进化,在逐渐向更复杂更多样化的问题迁移。腾讯AI Lab表示,他们的终极目标是迈向通用人工智能,长远来看,绝悟背后的研发经验和算法积累,未来还将在AI与农业、医疗及智慧城市等广阔领域的结合上展现巨大潜力,创造出更大的实用价值。
论文:https://arxiv.org/abs/1912.09729
谷歌足球竞赛官网:https://www.kaggle.com/c/google-football/leaderboard
雷锋网雷锋网雷锋网
(公众号:雷锋网)
。