华为 AAAI 2019 入选论文出炉，都是强化学习相关

雷锋网 • 5年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

雷锋网 (公众号：雷锋网) AI 科技评论按，AAAI 系列会议是为了促进人工智能的学术研究和交流举办的顶级学术会议。作为第三十三届 AAAI 会议，AAAI 2019 又一次刷新了人工智能会议的记录，投稿数量达到 7,700 篇，录用率 16.2%。

今年，华为诺亚方舟实验室埃德蒙顿团队在 AAAI 2019 有两篇强化学习文章录用，论文的具体介绍如下：

ACE: An Actor Ensemble Algorithm for Continuous Controlwith Tree Search

地址： https://arxiv.org/abs/1811.02696

本篇文章研究的是机器人领域里常见的连续动作控制问题。对该问题目前最好的强化学习算法是 DeepMind 的 Deep Deterministic Policy Gradient(DDPG)。虽然在 DDPG 的文章中该算法是从 Deep Q networks 的灵感引发出来的，但是 DDPG 采用的其实是早期强化学习常用的 Actor-Critic 结构，整个学习系统由一个「老师网络」(Critic) 和一个「学生网络」(Actor) 组成。老师网络负责对学生网络的输出进行打分。学生网络根据老师网络在贪婪方向选取动作并追加随机探索。学生网络的学习是站在老师网络的肩膀上进行梯度再上升，使用的是基于链式法则的策略梯度方法 (Policy Gradient)。DDPG 实现的是一个优美的设计，老师网络专注于对学生网络的打分和考评，学生网络根据老师网络的最新考评随时调整自己的策略并有一定的探索自由度。

Actor-Critic 的理论和算法主要是在线性价值函数下。DDPG 的主要贡献是将 Actor-Critic 的架构推广到神经网络。但是这种推广也带来一个线性下不存在问题:神经网络的使用导致老师网络和学生网络都可能无法得到全局最优解。为了解决 DDPG 的这个问题，我们提出的新算法 ACE 的核心思想是使用 actorensemble 的技术：通过多个 actor 网络对同一个状态来提出多个动作，老师网络会根据他对这些学生们的打分经验选择最好的动作。为了使得多个学生网络探索策略空间的不同的区域，我们把学生们初始化成不同的权值。这样使得老师网络有对探索的全局把握，也能解决 DDPG 只使用一个学生网络而带来的只能学到局部最优策略的问题。

因为多个学生网络的存在，我们可以提这样的问题，如果使用学生 A 的动作接着再使用学生 B 的动作会带来怎样的效果？进而，在当前时刻我们如何决定未来使用的学生序列？这里是一个典型的规划 (Planning) 问题：几个学生动作链成一个时间序列，它们导致的效果是需要评估的。这种评估过程展开来是个树状结构，也是 AlphaGo 使用的搜索结构。注意下围棋的动作是离散的，而在连续动作空间里怎么做树状搜索？因而本文的第二个贡献就是连续动作空间下的树状搜索方法。为了快速进行搜索，树的展开不是在原始输入图像层面，而是在深层网络已经抽出来的低维特征空间进行的。下图中的 z 就是该低维特征。在当前状态，也就是相应的图像输入下，我们如果选择动作 a，对应的值函数 Q(s,a) 是多少呢？该树的分叉因子是二，代表的是采用两个 actor networks。展开一步 (向右) 代表的是个预测过程，即预测在状态 s 分别采取两个 actor networks 提出来的动作导致的下一个图像对应的低维特征 (还有奖赏的预测，图中省略)。如此类推，在下一步的两个低维特征间我们分别再根据两个 actor networks 进行动作选择，对应的下一步的低维特征就有四个。由于这种前向的预测展开过程是为了能找到最好的前向动作序列，我们只需要在意最好的路径分支。因而在做完树的前向展开，我们就可以找出最好的路径，沿着展开树的相反反方向进行价值估计的回传（就是强化学习中通常所谓 backup）。图中所示是做两步搜索的过程。

华为 AAAI 2019 入选论文出炉，都是强化学习相关

图片来源：华为诺亚实验室

在 RoboSchool（基于 Mujoco 的开源 RL 环境）上，我们的算法取得了比 DDPG 更快的学习速度和更好的学习效果。我们细致地比较了使用多个学生网络和树状搜索对学习系统分别带来的好处，发现如果单纯使用多个学生网络或者树状搜索算法的表现都远远低于两个的结合。下面是在 Ant 和 Walker2d 的比较，蓝色是我们的算法，黑色是 DDPG 的算法。ACE 的细节和它在其它 RoboSchool 任务的性能请看文章。

华为 AAAI 2019 入选论文出炉，都是强化学习相关

图片来源：华为诺亚实验室

参考文献：

DDPG paper：Continuous control with deep reinforcement learning, DeepMind, 2015.

QUOTA: The Quantile Option Architecturefor Reinforcement Learning

地址： https://arxiv.org/abs/1811.02073

强化学习研究常用的 Atari games 包括了 49 个对人类玩家比较难的游戏。在这些游戏上的学习效率已经成为算法的一个必要的评测指标。目前在 Atari games 里排在首位的基础算法是 DeepMind 的 Quantile Regression – Deep Q networks (QR-DQN)。(当前整体最优的 Rainbow 则是集成了很多算法技术，而原理类似 QR-DQN 的 C51 是其中核心的一个算法。) QR-DQN 是基于 Distribution 的强化学习。在这一波「深度强化学习」的革命浪潮中，Distribution 强化学习是少见的新理论。最早的学习价值函数的分布的想法在 2010 年左右在线性的架构下已经有人提出，但是 DeepMind 团队第一次证明了价值函数分布也可以用于强化学习，即存在价值函数分布的 Bellman 方程。这个理论的重要性在于，在经典强化学习和动态规划中只有最优策略函数存在的理论，现在不仅它本身存在，它的分布函数也存在。这个结果有可能驱动强化学习领域向 Distribution 强化学习迈进。首先，Distribution 强化学习能测量更多的信息。经典强化学习对一个状态或者状态和动作的一个组合只有对价值进行均值的估计。Distribution 强化学习测量的却不仅仅是均值，而是该状态或者状态加动作的价值的整个分布。模型的表达能力无疑大大增强了。比如，有了分布，我们不仅可以估计均值，还可以对状态加动作的价值的方差进行估计从而得到在该时刻选择某个动作的信心评估。

然而，目前 DeepMind 的 Distribution 强化学习团队虽然提出了很好的理论，却止于「强化学习就是均值」的传统理解。为什么这么说呢？QR-DQN 虽然估计出了状态加动作的分布，还是只摘取了该分布的均值，然后回到了经典强化学习用该均值做动作选择的做法。也就是说，QR-DQN 其实只是经典强化学习框架下一种新的均值估计方法。为了说明单纯基于均值的方法的缺陷，我们给出了一个基于均值的强化学习会失败的一个反例。包括 DQN 在内所有基于均值估计的强化学习方法在该例子中都无法尽快探索到有价值的动作和状态。而本文提出的方法能解决这种极端情况下的快速探索和学习。该反例的具体细节请看论文。

那么学了状态加动作的价值值函数分布有没有实际作用呢？应该怎么用呢？这个是本文探讨的主要问题。我们第一次提出可以通过使用分布函数估计中的不同 quantile 来做动作选择，而不再是使用均值。超越均值的强化学习是本文的亮点。这样做是因为不同的 quantile 代表不同的风险，在做策略选择的过程中，不同时候的策略是需要有不同的风险的。大的风险能带来大的收益，但是风险也高。小风险的策略相对安全，但是带来收益也小。这种带不同风险的决策风格在关键的时候会发挥作用。

显然不同的时刻需要不同风险的决策。为了能自适应的选择风险水平以取得最大的系统收益，我们设计了分层 (hierarchical) 的决策框架。上层的决策用 Deep Q networks(DQN) 来实现宏观决策，以选择用哪种风险的动作选择。下层决策使用多个动作选择网络，每个网络代表动作价值函数的一个 Quantile。在 Atari 上我们的算法 QUOTA 与 QR-DQN 比较的结果是，在大部分游戏上都优于 QR-DQN(相同的学习时间分数更高)。值得注意的是，我们算法取得领先优势的游戏恰恰是 Atari games 比较难的游戏 (读者可以参看 DQN 在 Nature 杂志上的文章，对比 DQN 的基线结果。

华为 AAAI 2019 入选论文出炉，都是强化学习相关

图片来源：华为诺亚实验室

我们的方法不仅适合离散动作控制，同样适用于连续动作控制。我们在 DDPG 中增加了多个 actor，每个 actor 是根据某个 quantile 的值函数进行 (贪婪) 动作选择。这样 Critic 就可以对不同的 actor 网络进行评价。在 RoboSchool 几组仿真机器人的控制问题上，QUOTA 在大部分问题里都优于 DDPG。详细的结果请看论文。

华为 AAAI 2019 入选论文出炉，都是强化学习相关

图片来源：华为诺亚实验室

最后，一个有意思的现象是实验结果说明了不同的时间点上所需要的风险策略确实是不一样的。下图显示的横轴是学习时间 (也就是已经见过的样本的个数)，纵轴是显示选择每个风险策略的频率。颜色越深表示在该时刻选择该风险策略的频率越高。

华为 AAAI 2019 入选论文出炉，都是强化学习相关

图片来源：华为诺亚实验室

参考文献：

DQN Nature paper: Human-levelcontrol through deep reinforcement learning, DeepMind 2015.
QR-DQN paper: Distributional ReinforcementLearning with Quantile Regression, DeepMind, 2017.

雷锋网版权文章，未经授权禁止转载。详情见。