突破 | DeepMind为强化学习引入无监督辅助任务,人工智能的Atari游戏水平达到人类的9倍
选自DeepMind Blog
作者:Max Jaderberg、Volodymyr Mnih、Wojciech Marian Czarnecki
机器之心编译
参与:李泽南、吴攀、杜夏德
几个小时前,DeepMind 在其官方博客发表文章介绍他们在强化学习上的最新研究进展。他们通过为代理在训练过程中增加两项额外的任务来增强标准的深度强化学习方法,结果显示代理实现了更好的表现。
DeepMind 的主要任务是开拓人工智能的新疆界,开发可以自主解决任何复杂问题的新系统。我们的强化学习代理已在 Atari 2600 游戏和围棋中实现了突破。但这些系统需要大量数据进行长时间训练,我们一直致力于提高我们的通用学习算法,改变这一情况。
我们在最近的论文《使用无监督辅助任务的强化学习》中提出了一种可以大大提高人工智能代理学习速度和系统性能的方法。通过为代理在训练过程中增加两项额外的任务来增强标准的深度强化学习方法,我们的代理实现了更好的表现。
下面是我们的代理在 Labyrinth 迷宫任务中的可视化展示:
第一个任务包括让代理学习如何控制屏幕中的像素,这需要代理学习它的行为会如何影响它将要看到的事物,而不仅仅是预测。计算机学习的过程类似于人类婴儿通过移动和观察手的运动来学习如何控制手。通过学习如何改变屏幕的不同部分,我们的代理学习了视觉输入的特性,从而学会如何在游戏中打出高分。
在第二个任务中,代理通过训练从近期战况中预测出动作的即刻得分。为了得到更好的结果,我们将有得分和无得分的历史数据等比例地输入系统。通过更多地学习有得分的数据,代理可以更快地学会预测回报的视觉特征。
结合这些辅助任务,以及我们之前发表的 A3C 论文《Human-level control through deep reinforcement learning》中的成果,我们提出了 UNREAL(无监督强化和辅助学习/UNsupervised REinforcement and Auxiliary Learning)代理。我们在一套 57 个 Atari 游戏合集和拥有 13 个级别的 3D 迷宫游戏 Labyrinth 中测试了这一新系统。在所有游戏中 UNREAL 代理被用同样的方式训练,系统只接收屏幕图像的信息,试图在游戏中获得最多的得分和奖励。在不同游戏中,得分的方式各不相同,从玩 3D 迷宫到《Space Invaders》――同样的 UNREAL 算法学会了所有这些游戏,得分几乎与人类玩家持平,有些甚至超过了人类。下面的视频中可以看到我们的部分结果。
UNREAL 代理玩 Labyrinth
在 Labyrinth 中,通过使用辅助任务的结果――控制屏幕中的像素点预测何时奖励会出现――意味着 UNREAL 的速度比我们过去最好的 A3C 代理快超过十倍,而且得分好很多。我们的新系统在这些 Labyrinth 关卡中有 87% 的关卡可以达到专业人类玩家的表现,其中一些关卡的表现更是超过人类。在 Atari 游戏中,代理目前的游戏水平已是人类玩家的 9 倍。我们希望这些成果在不久的将来可以让人工智能系统应用到更加复杂的环境中。
-
论文:使用无监督辅助任务的强化学习(Reinforcement Learning with Unsupervised Auxiliary Tasks)
深度强化学习代理已经通过直接最大化累积奖励而实现了当前最佳的表现。但是,环境包含了远远更多类型的可能的训练信号。在这篇论文中,我们介绍一种通过强化学习也能同时最大化许多其它伪奖励函数(pseudo-reward functions)的代理。所有这些任务都共享了一个共同的表征,就像无监督学习一样,这种表征可以继续在有外部奖励(extrinsic rewards)存在的情况下发展。我们还引入了一种全新的机制以将这种表征的重心放到外部奖励上,从而让学习可以快速适应该实际任务中最相关的方面。在 Atari 游戏上,我们的代理的表现显著超越了之前的最佳表现,平均达到了人类专家表现的 880%;并且在一个有挑战性的第一人称三维 Labyrinth 任务合集中实现了平均 10 倍的学习加速和平均 87% 的人类专家在 Labyrinth 上的表现。
©本文为机器之心编译文章, 转载请联系本公众号获得授权 。
?------------------------------------------------
加入机器之心(全职记者/实习生):hr@almosthuman.cn
投稿或寻求报道:editor@almosthuman.cn
广告&商务合作:bd@almosthuman.cn