玩游戏胜过人类:全新增强学习算法,或助AI向真正智能学习体进化

钛媒体  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

玩游戏胜过人类:全新增强学习算法,或助AI向真正智能学习体进化

玩游戏胜过人类:全新增强学习算法,或助AI向真正智能学习体进化

学术头条

· 刚刚



微信扫码

11

AI 可能要变得更 “聪明” 了。

玩游戏胜过人类:全新增强学习算法,或助AI向真正智能学习体进化

图片来源@视觉中国

文丨学术头条

近年来,人工智能(AI)在强化学习算法的加持下,取得了令人瞩目的成就。比如在围棋、星际争霸 II 和 Dota 2 等诸多策略、竞技类游戏中,AI 都有着世界冠军级的表现,以及在机器人跑步、跳跃和抓握等技能的自主学习方面,也起到了显著的推动作用。

如今,AI 可能要变得更 “聪明” 了。

作为机器学习的一大关键领域,强化学习侧重如何基于环境而行动,其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。

但是,这种算法思路有着明显的短板:许多成功案例都要通过精心设计、信息量大的奖励机制才能实现,当遇到很少给予反馈的复杂环境时,强化学习算法就很容易碰壁。因此,过往的 AI 难以解决探索困难(hard-exploration)的问题,这类问题通常伴随着奖励稀疏(sparse)且会有欺骗性(deceptive)的奖励存在。

今天,一项发表在《自然》(Nature)杂志的研究提出了一类全新的增强学习算法,该算法在雅达利(Atari 2600)经典游戏中的得分超过了人类顶级玩家和以往的 AI 系统,在《蒙特祖马的复仇》(Montezuma’s Revenge)和《陷阱》(Pitfall!)等一系列探索类游戏中达到了目前最先进的水平。

玩游戏胜过人类:全新增强学习算法,或助AI向真正智能学习体进化

论文的主要作者来分别来自 OpenAI 和 Uber AI Labs,他们将这类算法统称为 Go-Explore,该类算法改善了对复杂环境的探索方式,或是 AI 向真正智能学习体进化迈出的重要一步。事实上,Uber AI Labs 早在 2018 年就对外展示了 Go-Explore 算法在探索游戏中的表现。
图|Go-Explore 在探索游戏中的表现(来源:YouTube)

图|Go-Explore 在探索游戏中的表现(来源:YouTube)

AI 探索能力受阻的症结

论文的第一作者和通讯作者阿德里安・埃科菲特(Adrien Ecoffet)目前是 OpenAI 的研究科学家,其兴趣是强化学习(特别是探索和质量多样性激发的方法)和人工智能安全(特别是道德一致性),近年来的侧重一直在研究多代理环境中的紧急复杂性,在进入 OpenAI 之前,他还曾在 Uber AI 实验室就职。

想要让强化学习算法更进一步,就需要对症下药。埃科菲特和同事们分析认为,有两个主要问题阻碍了以前算法的探索能力。

第一是 “分离”(detachment),算法过早地停止返回状态空间的某些区域,尽管有证据表明这些区域仍是有希望的。当有多个区域需要探索时,分离尤其可能发生,因为智能体可能会部分探索一个区域,切换到第二个区域,并且忘记如何访问第一个区域。

第二个是 “脱轨”(derailment),算法的探索机制阻止智能体返回到以前访问过的状态,直接阻止探索或迫使将探索机制最小化,从而不会发生有效的探索。

怎么理解这些概念呢?这还得从 Go-Explore 算法推出之前说起。简单来讲,为了解决探索类游戏中奖励稀疏的问题,算法科学家们通常采用内在奖励(intrinsic motivation,IM)的方法,即奖励被人为均匀地分布在整个环境中,以鼓励智能体探索新区域和新状态。

图|“分离” 状态的图解(来源:arXiv)

图|“分离” 状态的图解(来源:arXiv)

如上图所示,绿色区域表示内在奖励,白色区域表示没有内在奖励的区域,紫色区域表示算法当前正在探索的区域。

举个例子,当智能体处在两个迷宫入口之间,它先从左边的迷宫开始随机搜索,由于 IM 算法要求智能体随机尝试新行为以找到更多的内在奖励的机制,在搜索完左边迷宫的 50% 时,智能体可能会在任意时刻开始对右边的迷宫进行搜索。

但是,深度学习自身有着 “灾难性遗忘”(Catastrophic Forgetting)的问题,这指的是利用神经网络学习一个新任务的时候,需要更新网络中的参数,但是上一个任务提取出来的知识也是储存在这些参数上的,于是每当学习新的任务时,智能体就会把学习旧任务得到的知识给遗忘掉,而不能像人类那样在学习中可以利用先前学习过的经验和知识,快速地进行相似技能的学习。

所以,在完成右边的搜索后,智能体并不记得在左边迷宫中探索的事情,更糟糕的情况是,左边迷宫前期的一部分区域已经被探索过了,因而几乎没有可获得的内在奖励去刺激智能体深入探索。研究人员将这种状况总结为:算法从提供内在动机的状态范围分离开了。当智能体认为已经访问过这些区域了,深入探索行为可能就会停滞,因而错过那些仍未探索到的大片区域。

天真地遵循奖励机制可能会导致智能体进入死胡同。因此,探索问题的症结就在于明确避免 “分离” 和 “脱轨” 情况的发生,让智能体通过显式 “记住” 有希望的状态和区域,并在探索新领域前能返回到这些状态。

Go-Explore 的算法逻辑

为了避免分离,Go-Explore 建立了一个智能体在环境中访问过的不同状态的 “档案”,从而确保状态不会被遗忘。如下图,从一个只包含初始状态的存档开始,它不断迭代构建这个存档。

图|Go-Explore 方法概览(来源:Nature)

图|Go-Explore 方法概览(来源:Nature)

首先,它可能从存档中选择要返回的状态(a),返回到所选状态(b),然后从该状态探索(c),将返回和探索过程中遇到的每个状态映射到低维单元表示(d),用遇到的所有新状态更新存档(e)。

整个过程让人想起经典的规划算法,在深度强化学习研究中,这些算法的潜力相对未被重视。然而,对于强化学习领域所关注的问题(如上述在 Atari 游戏中的探索困难问题),这些问题是高维的,具有稀疏的奖励和 / 或随机性,没有已知的规划方法是有效的,且由于需要探索的状态空间太大,无法进行彻底搜索,而随机转换使得不可能知道节点是否已经完全扩展。

Go-Explore 可以看作是将规划算法的原理移植到这些具有挑战性的问题上。

以往的强化学习算法并没有将返回和探索分开,而是在整个过程中混合探索,通常是在一小部分时间内添加随机动作,或者从随机 “策略” 中采样 —— 这是一个决定在每个状态下采取哪种动作的函数,通常是一个神经网络。

通过在探索之前先返回,Go-Explore 通过在返回时最小化探索来避免脱轨发生,之后它可以纯粹专注于更深入的探索未知区域。

Go-Explore 还提供了一个独特的机会来实现模拟器在强化学习任务中的可用性和广泛性,模拟机是 “可恢复的环境”,因为以前的状态可以保存并立即返回,从而完全消除了脱轨。

在利用可恢复环境的这一特性时,Go-Explore 在其 “探索阶段” 通过不断恢复(从其档案中的一个状态采取探索行动)以彻底探索环境的各个区域,它最终返回它找到的得分最高的轨迹(动作序列)。

这样的轨迹对随机性或意外的结果并不可靠。例如,机器人可能会滑倒并错过一个关键的转弯,使整个轨迹失效。为了解决这个问题,Go-Explore 还通过 “从演示中学习”(learning from demonstrations,LFD)的方式来训练一个健壮的策略,其中探索阶段的轨迹取代了通常的人类专家演示,在一个具有足够随机性的环境变体中确保健壮性。

成效如何?

Atari benchmark 套件是强化学习算法的一个重要基准,是 Go-Explore 的一个合适的测试平台,因为它包含了一系列不同级别的奖励稀疏性和欺骗性的游戏。

在测试中,Go-Explore 的平均表现都是 “超级英雄”,在 11 个游戏比赛测试中都超过了之前算法的最高水平。在 Montezuma’s Revenge 中,Go-Explore 的战绩是此前最先进分数的四倍;在 Pitfall! 中,Go-Explore 的探索能力超过了人类的平均表现,而以前的诸多算法根本无法得分,实验结果展现出了实质性的突破,这是强化学习多年来研究的焦点。
图|Go-Explore 在游戏 Montezuma’s Revenge 中的表现(来源:YouTube)

图|Go-Explore 在游戏 Montezuma’s Revenge 中的表现(来源:YouTube)

图|Go-Explore 在游戏 Pitfall! 中的表现(来源:YouTube)

图|Go-Explore 在游戏 Pitfall! 中的表现(来源:YouTube)

值得关注的是,不同的算法需要使用不同的计算能力。Go-Explore 处理的帧数(300 亿)与其他分布式强化学习算法,比如 Ape-X(220 亿)和 NGU(350 亿)很相似,尽管旧的算法处理的帧数通常较少,但其中许多算法显示出收敛的迹象(这意味着预计不会有进一步的进展),而且对于其中的许多算法来说,尚不清楚它们是否能够在合理的时间内处理数十亿帧。

图|Go-Explore 在 Atari 平台游戏中的强力表现(来源:Nature)

图|Go-Explore 在 Atari 平台游戏中的强力表现(来源:Nature)

此外,Go-Explore 的能力不仅限于困难的探索问题,它也为 OpenAI gym 提供的所有 55 款 Atari 游戏找到了具有超人得分的轨迹,这是前所未有的壮举,在这些游戏中,85.5% 的游戏轨迹得分高于此前最先进的强化学习算法。

研究人员表示,在实际应用中,通常可以根据领域知识定义有用的特征,Go-Explore 可以利用这些易于提供的领域知识,通过构造只包含与探索相关的功能单元来显著提高性能,Go-Explore 生成的策略,在 Montezuma’s Revenge 中平均得分超过 170 万,超过了现有技术的 150 倍。

不仅在探索类游戏中的表现突出,Go-Explore 还能用于机器人。

机器人技术是强化学习一个很有前途的应用,通常很容易定义机器人任务的高层次目标(比如,将杯子放在橱柜中),但定义一个足够密集的奖励函数要困难得多(比如,奖赏所有低级别的运动指令,以便形成向杯子移动、抓住杯子等操作)。

而 Go-Explore 允许放弃这样一个密集的奖励函数,只考虑高级任务的稀疏奖励函数。

图|Go-Explore 可以解决一个具有挑战性的、稀疏奖励的模拟机器人任务(来源:Nature)

图|Go-Explore 可以解决一个具有挑战性的、稀疏奖励的模拟机器人任务(来源:Nature)

研究人员通过一个机械臂模拟实验,演示了 Go-Explore 可以解决一个实际的艰难探索任务:机器人手臂必须拿起一个物体并将其放在四个架子中的一个架子内,其中两个架子在闩锁的门后,只有当物品被放入指定的目标货架时,才会给予奖励。

用于连续控制的最先进的强化学习算法近端策略优化(PPO)在这种环境中训练了 10 亿帧后,不会遇到任何奖励,显示了这个任务的艰难探索性质,而 Go-Explore 在探索阶段就能快速而可靠地发现将物体放入四个架子的轨迹,通过对 Go-Explore 发现的轨迹进行稳健性分析,发现可以在 99% 的情况下产生稳健的策略。

更多可能性

基于策略的 Go-Explore 还包括促进探索和稳定学习的其他创新,其中最重要的例如自模仿学习、动态熵增加、软轨迹和动态事件限制,在论文方法部分进行了详细讨论。

研究人员表示,这项工作提出的 Go-Explore 算法家族的有效性表明,它将在许多领域取得进展,包括机器人技术、语言理解和药物设计等,论文中提到的实例只代表了 Go-Explore 可能实现的一小部分能力,为未来的算法研究打开许多令人兴奋的可能性。

据论文描述,未来工作的一个关键方向是改进学习单元表征,比如通过基于压缩的方法、对比预测编码或辅助任务,这将使 Go-Explore 能够推广到更复杂的领域。

此外,Go-Explore 探索阶段的规划性质也突出了将其他强大的规划算法(如 MCTS、RRT 等)移植到高维状态空间的潜力,这些新的思路结合提供了丰富的可能性,以提高算法的通用性、性能、鲁棒性和效率。

这项工作中提出的见解让人们发现,记忆以前发现的状态,回到它们,然后从中探索的简单逻辑对于人工智能算法不可或缺,这可能是智能体进阶的一个基本特征。这些见解,无论是在 Go-Explore 内部还是外部,对于人类创建更强 AI 系统的能力都有新的启示作用。

参考资料:

https://www.nature.com/articles/s41586-020-03157-9

https://www.youtube.com/watch?v=u6_Ng2oFzEY&feature

https://towardsdatascience.com/a-short-introduction-to-go-explore-c61c2ef201f0

https://eng.uber.com/go-explore/

https://arxiv.org/abs/1901.10995

https://adrien.ecoffet.com/ 

人工智能 投稿

235篇资讯

20.3k关注

学术头条

关注

见证探索之途上的每一步重大突破

最近资讯

  • 玩游戏胜过人类:全新增强学习算法,或助AI向真正智能学习体进化
  • 《泰坦尼克号》漫画版?中国高校学者开发全自动漫画生成系统
  • 可与“狗鼻子”媲美的AI癌症检测系统问世,或装在你的手机中
本文系作者学术头条授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里。

敬原创,有钛度,得赞赏

”支持原创,赞赏一下“
钛粉74059 钛粉35141 钛粉12618 钛粉20295 钛粉05059 钛粉69389
421人已赞赏 >
421换成打赏总人数421人赞赏钛媒体文章
  • 钛粉74059

    钛粉74059 赞赏了

    孤独陈睿,放弃仪式抵抗

    昨天
  • 钛粉35141

    钛粉35141 赞赏了

    马云和他的三个“赌王”朋友

    约3天以前
  • 钛粉12618

    钛粉12618 赞赏了

    中国认知智能行业报告

    约6天以前
  • 钛粉20295

    钛粉20295 赞赏了

    北大教授彭波发表英文论文,深剖国家治理的“数字领导...

    2021-02-09 14:15
  • 钛粉05059

    钛粉05059 赞赏了

    陆奇万字演讲:中国经济形态与东南亚相似,创业创新易...

    2021-02-09 11:08
  • 钛粉69389

    钛粉69389 赞赏了

    视频号是微信小游戏弯道超车的大好机会

    2021-02-07 13:58
  • 钛粉67426

    钛粉67426 赞赏了

    我在抖音生产主播,投入一个亿,只挣两百万

    2021-02-07 03:18
  • 钛粉45533

    钛粉45533 赞赏了

    在虚拟影院边看电影边社交是种怎样的体验?

    2021-02-04 12:44
  • 钛粉80055

    钛粉80055 赞赏了

    能睡眠遮噪还能听音乐,1MORE ComfoBud...

    2021-01-30 02:56
  • 钛aB1IyM

    钛aB1IyM 赞赏了

    “俗”人李子柒

    2021-01-27 22:21
  • 钛粉65171

    钛粉65171 赞赏了

    敬“墨茶”一篮草莓,希望他在远方没有病痛和穷苦

    2021-01-24 10:14
  • 钛粉38610

    钛粉38610 赞赏了

    网络平台涉黄屡禁不止,网络环境何时迎来健康未来?

    2021-01-22 08:44
  • 钛粉91023

    钛粉91023 赞赏了

    巨头下注,播客虚火

    2021-01-19 13:26
  • 钛粉25879

    钛粉25879 赞赏了

    中国下一个 “巨无霸”交易平台是什么?

    2021-01-18 16:09
  • 钛粉50426

    钛粉50426 赞赏了

    谁会是中国小电厨电第一个千亿之王?

    2021-01-13 16:45
  • 钛a2I9ui

    钛a2I9ui 赞赏了

    特斯拉降价,苦了自主新能源车

    2021-01-11 23:04
  • 蒙MYH

    蒙MYH 赞赏了

    “喝”出万亿大市场:0糖更快乐,植物基出圈

    2021-01-11 14:39
  • hU8dfb

    hU8dfb 赞赏了

    中国电商的下一个绝佳机会

    2021-01-05 15:37
  • 钛粉76789

    钛粉76789 赞赏了

    一个“傻瓜式”的SaaS开店工具,如何赚得千亿美金...

    2021-01-04 14:16
  • 钛粉68961

    钛粉68961 赞赏了

    挑战海拉尔零下30度,体验一汽丰田双擎混动技术 |...

    2021-01-03 16:31
  • 钛粉18683

    钛粉18683 赞赏了

    2020年最后一天,社交平台Uki被Soul前员工...

    2020-12-31 10:30
  • 钛粉17696

    钛粉17696 赞赏了

    2020年最后一天,社交平台Uki被Soul前员工...

    2020-12-31 10:23
  • h2WkpG

    h2WkpG 赞赏了

    2020年最后一天,社交平台Uki被Soul前员工...

    2020-12-31 10:17
  • hwDjnH

    hwDjnH 赞赏了

    2020年最后一天,社交平台Uki被Soul前员工...

    2020-12-31 10:10
  • 钛粉40181

    钛粉40181 赞赏了

    石家庄,工厂子弟,和“万青”失去的十年

    2020-12-25 14:33
  • 钛粉89488

    钛粉89488 赞赏了

    中高端MPV竞争,微妙平衡中寻找取胜之道

    2020-12-18 16:41
  • 钛粉89860

    钛粉89860 赞赏了

    中高端MPV竞争,微妙平衡中寻找取胜之道

    2020-12-18 16:32
  • 钛粉15908

    钛粉15908 赞赏了

    英特尔:硅谷文化的最后传承者 | 钛媒体深度

    2020-12-15 13:47
  • 钛粉77486

    钛粉77486 赞赏了

    苹果:拨弄中、美、日命运的人

    2020-12-07 08:11
  • 钛粉02929

    钛粉02929 赞赏了

    为何上海高院未按反垄断法第14条判决?

    2020-11-25 15:39
  • Kris00135

    Kris00135 赞赏了

    “优爱腾”难题无解,长视频去向何方?

    2020-11-24 12:04
  • 钛粉88011

    钛粉88011 赞赏了

    从荷兰回到张家口种树莓,他想用AI无人种植改变中国...

    2020-11-19 17:52
  • 钛粉39442

    钛粉39442 赞赏了

    看完美国大选,是时候聊聊国内综艺的投票机制了

    2020-11-09 12:59
  • 在天空中自由翱翔的百灵鸟

    在天空中自由翱翔的百灵鸟 赞赏了

    透露一个共享办公的惊人事实:空置率70%-90%

    2020-11-06 13:48
  • 在天空中自由翱翔的百灵鸟

    在天空中自由翱翔的百灵鸟 赞赏了

    雷军:继续死磕硬核技术,小米2021年扩招5000...

    2020-11-05 18:13
  • 钛粉94592

    钛粉94592 赞赏了

    手机用户“被5G”?三大运营商回应:办理4G业务建...

    2020-11-04 21:12
  • 在天空中自由翱翔的百灵鸟

    在天空中自由翱翔的百灵鸟 赞赏了

    详解互联网+医保新政:什么病能用?什么钱能报?

    2020-11-04 16:51
  • 钛粉18709

    钛粉18709 赞赏了

    陈天桥再捐5亿支持中国脑科学研究,先在上海打造这个...

    2020-10-23 20:30
  • 钛aw26M5

    钛aw26M5 赞赏了

    深藏大山的汞矿遗址,孤身守矿的他,一辈子没有离开|...

    2020-10-16 08:59
  • 钛粉94035

    钛粉94035 赞赏了

    海底捞涉嫌抄袭巴奴,4万亿餐饮行业什么才是核心竞争...

    2020-10-10 01:25
  • 钛粉15375

    钛粉15375 赞赏了

    中国游戏的光荣与破灭

    2020-10-06 13:44
  • 钛哥儿

    钛哥儿 赞赏了

    赵何娟对话薇娅:两个女人的知世故而不世故

    2020-09-25 13:07
  • 钛粉85193

    钛粉85193 赞赏了

    以应用带产品,“自适应”工业级机器人Flexiv试...

    2020-09-23 11:43
  • 那只猫已转身不见

    那只猫已转身不见 赞赏了

    低房价、高收入,这些城市买房性价比最高

    2020-09-18 16:36
  • 一潭浑水

    一潭浑水 赞赏了

    豆瓣评分4.8的《花木兰》,真的那么烂吗?

    2020-09-12 13:24
  • 钛粉59301

    钛粉59301 赞赏了

    市值超四千亿,创造首富,农夫山泉为何这么“甜”?

    2020-09-08 17:57
  • 钛粉14259

    钛粉14259 赞赏了

    到95后的茶杯里兴风作浪

    2020-09-08 12:30
  • 钛粉55117

    钛粉55117 赞赏了

    中国APP出海“变形记”:再见工具,你好社交

    2020-09-06 23:36
  • 钛粉96933

    钛粉96933 赞赏了

    银行与实体经济如何产融对接?产业要全面深入,数据需...

    2020-09-05 09:42
  • 钛粉86548

    钛粉86548 赞赏了

    代餐赛道会跑出下一个“三只松鼠”吗?| 钛媒体深度

    2020-09-01 16:39
  • 查看精彩文章,打开钛媒体客户端
关闭弹窗

挺钛度,加点码!

  • ¥ 5
  • ¥ 10
  • ¥ 20
  • ¥ 50
  • ¥ 100

支付方式

确认支付
关闭弹窗

支付

支付金额:¥6

关闭弹窗
sussess

赞赏金额:¥ 6

赞赏时间:2020.02.11 17:32

关闭弹窗 关闭弹窗

账户【未登录】提示!
个人中心将无法记录并同步您的赞赏记录,
是否进行登录

直接赞赏
立即登录
关闭弹窗

分享文章

微信扫码
11

猜你喜欢

新冠加速CBDC进程,世界上20%的人口有望在3年内持有CBDC
货拉拉为什么不下架整改?
面包新语退出西安背后:不只加盟条件严苛,还有业务下滑、食品安全问题……
月薪5000招不到服务员:未来十年,餐饮业严重缺人
回顾春节假期出游数据,藏着文旅市场新的“增长密码”
华为发布新一代折叠旗舰Mate X2,售价17999元起 | 钛快讯
【登录后才能评论哦!点击 登录】

Oh! no

您是否确认要删除该条评论吗?

分享文章

微信扫码
11

随意打赏

提交建议
微信扫一扫,分享给好友吧。