好学的机器|下完围棋,DeepMind又有新爱好了
对于创造了AlphaGo的DeepMind来说,他们的目标是创造出一个能通过自我学习去制定战略,并最终取得出色的成绩的人工代理(artificial agents)。继围棋之后,DeepMind团队又有新爱好了:玩游戏。据说实力还不错,在部分游戏的表现上,能达到人类水平哦。
在玩游戏的背后,是 对于机器学习中深度强化学习的不断探索。那么,这个深度强化学习(DEEP REINFORCEMENT LEARNING)到底是什么呢?
简单来说,它就是深度学习+强化学习。
强化学习:是经过无数次试验、在错误和正确中不断锻炼的过程。
深度学习:是直接通过原始输入,自行构造并学习知识的过程。
两年前,Google在发表于《自然》杂志的论文中推出了首个大获成功的深度强化学习算法,为50种雅加达(Atari)游戏训练了不同的DQN(Convolutional Neutral Network + RL)代理, 令人惊奇的是,DQN代理在近一半的游戏中取得了人类级别的成绩,远远超过此前采用的其他算法。
接下来,Google又通过稳定 学习动态 等多种方式改进了DQN算法,使该算法在雅加达游戏的平均得分提高了300%。现在人工代理已经在几乎所有雅加达游戏中取得了人类水平,我们甚至可以培训 单一神经网络 学习 多种雅加达游戏 。
与此同时,名为 Gorila 的大型分布式深度强化学习系统也诞生了,这个系统利用Google Cloud平台,使代理的学习速度提高了一个等级。
最近Google又为人工代理创造了极具挑战性的3D导航与解谜环境。通过直接视野里中观察到的像素输入,代理依此画出地图以发现并找到游戏的通关法则。
而惊喜的是,未经任何改动的A3C算法在许多Labyrinth任务中都取得了人类水平。Labyrinth将在未来几个月以开放源形式发布。
从雅加达到Labyrinth,从运动到操控,再到扑克甚至围棋,我们的深度强化学习代理已经在多个挑战性领域取得了显著进步。
未来,Google将继续提高代理的能力,利用它们为社会带来积极影响,促进医疗卫生等重要事业的进步。