好学的机器|下完围棋，DeepMind又有新爱好了

搜狐科技 • 8年前扫码分享

　　对于创造了AlphaGo的DeepMind来说，他们的目标是创造出一个能通过自我学习去制定战略，并最终取得出色的成绩的人工代理（artificial agents）。继围棋之后，DeepMind团队又有新爱好了：玩游戏。据说实力还不错，在部分游戏的表现上，能达到人类水平哦。

　　在玩游戏的背后，是对于机器学习中深度强化学习的不断探索。那么，这个深度强化学习（DEEP REINFORCEMENT LEARNING）到底是什么呢？

　　简单来说，它就是深度学习+强化学习。

　　强化学习：是经过无数次试验、在错误和正确中不断锻炼的过程。

　　深度学习：是直接通过原始输入，自行构造并学习知识的过程。

　　两年前，Google在发表于《自然》杂志的论文中推出了首个大获成功的深度强化学习算法，为50种雅加达（Atari）游戏训练了不同的DQN（Convolutional Neutral Network + RL）代理，令人惊奇的是，DQN代理在近一半的游戏中取得了人类级别的成绩，远远超过此前采用的其他算法。

　　接下来，Google又通过稳定学习动态等多种方式改进了DQN算法，使该算法在雅加达游戏的平均得分提高了300%。现在人工代理已经在几乎所有雅加达游戏中取得了人类水平，我们甚至可以培训单一神经网络学习多种雅加达游戏。

　　与此同时，名为 Gorila 的大型分布式深度强化学习系统也诞生了，这个系统利用Google Cloud平台，使代理的学习速度提高了一个等级。

　　最近Google又为人工代理创造了极具挑战性的3D导航与解谜环境。通过直接视野里中观察到的像素输入，代理依此画出地图以发现并找到游戏的通关法则。

　　而惊喜的是，未经任何改动的A3C算法在许多Labyrinth任务中都取得了人类水平。Labyrinth将在未来几个月以开放源形式发布。

　　从雅加达到Labyrinth，从运动到操控，再到扑克甚至围棋，我们的深度强化学习代理已经在多个挑战性领域取得了显著进步。

　　未来，Google将继续提高代理的能力，利用它们为社会带来积极影响，促进医疗卫生等重要事业的进步。

　　好学的机器|下完围棋，DeepMind又有新爱好了