AI 自学跑酷,不下围棋之后 DeepMind 做出了一堆「奇行种」
AlphaGo 酷不酷?Google 收购的人工智能公司 DeepMind 使用业界领先的深度学习技术在围棋这种智商要求略高的游戏上碾压了人类,那下一步呢?
下面这个视频你看了可能会觉得可笑,一个连蠢萌都算不上的愚蠢动画形象在 3D 模型上进行着各种各样的——额,如果你非要把它称为「跑酷」也不是不可以。是的你可能想不到这与动漫《进击的巨人》中的「奇行种」巨人有几分相似的模拟机体,也是出自 DeepMind 之手。
在他们最新发布的一篇题为《丰富环境下运动行为的出现》的论文中,DeepMind 表示,对 AI 来说玩 Atari 的游戏或者下围棋,程序需要被设置的目标很简单,只要赢就行。但如果是让 AI 完成一次后空翻呢?你要怎样向机器描述后空翻的标准?于是他们开始研究训练 AI 穿越各种各样的地形,完成跳跃、转向、屈膝等相对复杂的动作。
DeepMind 的研究人员已经训练了很多模拟机体,包括一个无头行者,一个四足蚂蚁和一个 3D 的模拟人体,通过完成不同的动作任务来学习人类更加复杂的行为。
(无头行者)
加强学习技术(reinforcement learning)是对 AI 深度学习实行干预的一个系统,通过使用这种技术,人类可以根据自己的意愿引导 AI 完成深度学习,在 AI 达到自己想要的效果时给以算法意义上的奖励,这样深度学习最后达成的结果就更接近人类最初所设想的。
来自 Google 的 DeepMind 就使用了这种技术,并教会了 AI 模拟机体完成了一条跑酷路线。
DeepMind 想知道这种简单的奖励机制能否在复杂的环境中使用,他们设计了一系列的跑酷路线,有落崖,有障碍,还有墙壁,每一次完成关卡都会赢得系统奖励。
基本规则如下:最快突破障碍物的 AI 模拟机体将得到最大的奖励,更加复杂的项目将会得到额外的奖励和惩罚。
「结果显示我们的行动主体在没有收到特定指示的条件下学会了这些复杂的技能,证明了这种训练多种不同模拟机体的方法是可行的。」
(DeepMind 官网上的一句 Slogan)
事实上,目前市面上的机器人能做的事情还非常少,就连波士顿动力那种非常前沿的机器人公司也只能推出一些实验室产品,单单是倒下后重新站起来就已经难倒了许许多多的机器人研发机构,所以虽然看起来很蠢,但 DeepMind 的这项研究成果还是非常黑科技的。
(波士顿动力的机器人在倒下后可以自己站起来,图源: Discover Magazine Blogs )
据 The Verge 的说法,强化学习技术通常生成的行为是非常脆弱的,在不同的环境下无法保证行为的完成质量,就像一个孩子在家里能学会怎样爬楼梯,但出了门就弄不懂扶梯要怎么坐了。
DeepMind 通过实例证明了强化学习技术可以用来教机器学习复杂的行动,究竟有多复杂,我们来看看这些 DeepMind 在他们的博客中发出来的动图吧。
文章参考: DeepMind
头图来源: Upup