洞悉AlphaGo超越围棋大师的力量:机器之心邀你一起强化学习

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

美国计算机协会会刊(CACM)9 月发表了 《强化学习的复兴》 一文,深度介绍了强化学习的运用及其与深度学习的比较。强化学习是机器学习的主要三种类型之一,被应用在多种训练任务中。我们熟知的 AlphaGo 中就用到了大量的强化学习 。「人工智能研学社· 强化学习组」将强 化学习作为第一期学习内容,与大家分享有关深度学习的基本知识。本期教学内容推荐 Rich Suntton 教授关于强化学习的演讲视频――强化学习介绍及与函数近似结合的讨论。

一般而言,我们可以将机器学习分成三种类型:监督学习、无监督学习和强化学习。

监督学习是通过在带有标注的训练数据和输出对中寻找出需要学习到的模式;而无监督学习则是通过聚类分析来归纳没有标注的数据的模式;而强化学习则是通过代理对输入数据的不断反馈来接近一个问题的最佳解决方案。

强化学习(reinforcement learning)是受行为心理学启发的一个机器学习领域,其研究的是软件代理(agent)如何在一个环境(environment)中采取行动(action)以最大化我们想要的奖励(reward)。这是一个涵盖领域非常广的问题,也在博弈论、控制论、信息论、运筹学、基于模拟的优化、多代理系统、集群智能、统计学和遗传算法等许多学科领域得到了研究。在运筹学和控制论领域,强化学习方法所在的领域被称为近似动态规划(approximate dynamic programming)。这个问题曾在最优控制理论(theory of optimal control)领域得到过研究,尽管这个领域的大部分研究关注的是最优解决方案的存在以及它们的性质,而非学习或近似方面。在经济学和博弈论领域,强化学习可能能被用于解释有限理性(bounded rationality)下如何实现均衡(equilibrium)。

在机器学习领域,环境通常通常被阐释成一个马尔可夫决策过程(MDP),许多强化学习算法都是用了动态编程(dynamic programming)技术。传统技术和强化学习算法之间主要不同在于后者并不需要关于 MDP 的知识并且它们的目标是无法获取明确的方法的大型 MDP。

当然,强化学习并不是一个新东西。据了解,早在 1954 年,Minsky、Farley 和 Clark 等一些研究者就已经开始了对早期试错学习的研究。Minsky 在其博士论文《Theory of Neural-Analog Reinforcement Systems and Its Application to the Brain Model Problem》中探讨了强化学习模型,并且描述了一种模拟机(analog machine),这种模拟机由一种被他称为 SNARC(Stochastic Neural-Analog Reinforcement Calculator/随机神经模拟强化计算器)的组件构成。而 Farley 和 Clark 则描述了另一种设计用来进行试错学习的神经网络学习机器。

到了上世纪 60 年代,「强化(reinforcement)」和「强化学习(reinforcement learning)」就已经得到了很广泛的应用了(如,Waltz and Fu, 1965; Mendel, 1966; Fu, 1970; Mendel and McClaren, 1970)。其中特别要提的是 Minsky 1961 年的论文《Steps Toward Artificial Intelligence》,这篇论文集中地探讨了与强化学习相关的几个问题,包括信用分配问题(credit-assignment problem):对于可以涉及到的许多决策,该怎么为其中会成功的决策分配信用(credit)?

而强化学习从学术界走向大众认知的高潮还是在今年 3 月份的「AlphaGo vs. 李世石」的围棋世纪大战中。在这次举世瞩目的人机对决中,DeepMind 基于深度神经网络和强化学习的混合形态――「深度强化学习(deep reinforcement learning)」――所开发的围棋程序 AlphaGo 以 4:1 的巨大优势击败了世界顶级围棋大师李世石,掀起了一波鼓吹「机器超越人类」的狂潮。

在比赛后,阿尔伯塔大学计算机科学家、有现代强化学习教父之称的 Rich Sutton 表示强化学习和使用深度神经网络的深度学习这两种类型的学习可以很漂亮地互相补充。他解释说:「深度学习是有史以来最伟大的事情,但其很快就变得受限于数据了。如果我们能使用强化学习自动生成数据,即使这些数据的标注比人类的标注弱很多,但因为我们自动生成它们,我们就可以得到远远更多的数据,所以这两种技术可以很好地配合在一起。」

这里推荐一个 Rich Sutton 教授做的 tutorial 演讲《Introduction to Reinforcement Learning with Function Approximation(强化学习介绍及与函数近似结合的讨论)》。该演讲介绍如下:

强化学习是近三十年来机器学习与运筹学社区里发展的最优序贯决策(optimal sequential decision making)的理论和技术的主体,其分别在心理学和神经科学中都扮演重要角色。这个 tutorial 将会让你对基本的形式问题(马尔可夫决策过程)及其核心的解决方法(包括动态编程、蒙特卡罗方法和时间差分学习)有一个直观理解。这个 tutorial 将关注这些方法如何与参数函数近似(parametric function approximation,其中包括深度学习)进行结合以给大得无法用其它方式解决的问题找到好的近似解决方案。最后,我们还将简要介绍一些函数近似、资格痕迹(eligibility traces)和离策略学习(off-policy learning)上的最近进展。

  

相关补充学习资料:

  • Joelle Pineau, Introduction to Reinforcement Learning, Deep Learning Summer School, 2016;

    http://videolectures.net/deeplearning2016_pineau_reinforcement_learning/

  • Michael L. Littman. Reinforcement learning improves behaviour from evaluative feedback. *Nature*, 521:445�451, May 2015.

  • Learning Reinforcement Learning (with code,exercises and solutions)

    http://www.wildml.com/2016/10/learning-reinforcement-learning/

推荐者介绍:本期研习材料由 Yuxi Li 博士推荐。Yuxi Li 博士是加拿大阿尔伯塔大学 (University of Alberta) 计算机系博士、博士后。致力于深度学习、强化学习、机器学习、人工智能等前沿技术及其应用。曾任电子科技大学副教授;在美国波士顿任资深数据科学家等。目前在筹备深度相关的创业项目。Yuxi Li 博士也将在组内参与专家答疑。

这里也列举一些机器之心曾经发表过的介绍强化学习的文章:

  • 深度学习漫游指南:强化学习概览

  • ACM 最新月刊文章:强化学习的复兴

  • 谷歌总结深度强化学习,人工智能代理表现已达人类水平

  • 神经网络和深度学习简史(三):强化学习与递归神经网络

  • 详解深度强化学习,搭建DQN详细指南(附论文)

对于强化学习这样一个既有历史沉淀又有未来前景的技术领域,你一定充满了好奇和想要学习的渴望。也许你在机器学习和计算机方面已经有了一定的技术积累,但要进入一个新的领域,你可能还是常常感到:

   1. 找不到合适的学习资料

   2. 有学习动力,但无法坚持

   3. 学习效果无法评估

   4. 遇到问题缺乏讨论和解答的途径

因此,为了帮助「强化学习新手」进入这一领域,机器之心发起了一个互助式学习小组――「人工智能研学社· 强化学习组」。本小组将通过优质资料分享、教材研习、论文阅读、群组讨论、专家答疑、讲座与分享等形式加强参与者对强化学习和深度学习的理解和认知。

   面向人群: 有一定的机器学习技术基础,在强化学习方面处于学习阶段的学习者

学习形式: 资料推荐、统一进度学习(教材或论文)、群组讨论、专家答疑、讲座等。

加入方式:

1) 长按下面二维码 添加小助手微信,并注明:加入强化学习组

2) 点击「阅读原文」 完成小助手发送的入群测试(题目会根据每期内容变化),填写相关资料(教育背景 、从事行业和职务 、人工智能学习经历等)。

3)小助手将邀请成功通过测试的朋友进入「人工智能研学社· 强化学习组」

长按二维码添加机器之心小助手:

随意打赏

提交建议
微信扫一扫,分享给好友吧。