为了让AI不断打怪升级,DeepMind打造了一个“元宇宙”

DeepMind又冷不丁给了我们一个小惊喜。
我们都知道,强化学习苦于泛化能力差,经常只能针对单个任务来从头开始学习。
像DeepMind之前开发的AlphaZero,尽管可以玩转围棋、国际象棋和日本将棋,但对每种棋牌游戏都只能从头开始训练。
泛化能力差也是AI一直被诟病为人工智障的一大原因。人类智能厉害的一点就是,可以借鉴之前的经验,迅速适应新环境,比如你不会因为是第一次吃川菜,就看着一口鸳鸯锅不知所措,你吃过潮汕火锅嘛,不都是涮一下的事情嘛
。
但是,泛化能力也不是一蹴而就的,就像我们玩游戏的时候,也是先做简单任务,然后逐步升级到复杂任务。在游戏《空洞骑士》中,一开始你只需要随意走动挥刀砍怪就行,但在噩梦级难度的“苦痛之路”关卡中,没有前面一点点积累的烂熟于心的技巧,只能玩个寂寞。

多任务元宇宙
DeepMind此次就采用了这种“ 课程学习 ”思路,让智能体在不断扩展、升级的开放世界中学习。也就是说,AI的新任务(训练数据)是基于旧任务不断生成的。
在这个世界中,智能体可以尽情锻炼自己,简单的比如“靠近紫色立方体”,复杂一点的比如“靠近紫色立方体或将黄色球体放在红色地板上”,甚至还可以和其他智能体玩耍,比如捉迷藏——“找到对方,并且不要被对方找到”。
每个小游戏存在于世界的一个小角落,千千万万个小角落拼接成了一个庞大的物理模拟世界 ,比如下图中的几何“地球”。
总体来说这个世界的任务由三个要素构成,即任务=游戏+世界+玩家,并根据三个要素的不同关系,决定任务的复杂度。
复杂度的判断有四个维度: 竞争性,平衡性,可选项,探索难度。
比如在“抢方块”游戏中,蓝色智能体需要把黄色方块放到白色区域,红色智能体需要把黄色方块放到蓝色区域。这两个目标是矛盾的,因此竞争性比较强;同时双方条件对等,平衡性比较高;因为目标简单,所以可选项少;这里DeepMind把探索难度评为中上,可能是因为定位区域算是比较复杂的场景。
再例如,在“球球喜欢和方块一起玩”游戏中,蓝色和红色智能体都有一个共同的目标,让相同颜色的球体和方块放在相近的位置。
这时候,竞争性自然很低;平衡性毋庸置疑是很高的;可选项相比上面的游戏会高很多;至于探索难度,这里没有定位区域,智能体随便把球体和方块放哪里都行,难度就变小了。
基于这四个维度,DeepMind打造了一个任务空间的、超大规模的“元宇宙”,几何“地球”也只是这个元宇宙的一个小角落,限定于这个四维任务空间的一个点。DeepMind将这个“元宇宙”命名为Xland,它包含了数十亿个任务。
来看看XLand的全貌,它由一系列游戏组成,每个游戏都可以在许多不同的模拟世界中进行,这些世界的拓扑和特征平滑地变化。

终生学习



智能初现







参考链接:
https://deepmind.com/blog/article/generally-capable-agents-emerge-from-open-ended-play
https://storage.googleapis.com/deepmind-media/papers/Open-Ended%20Learning%20Leads%20to%20Generally%20Capable%20Agents/open-ended-learning-paper.pdf
雷锋网雷锋网 (公众号:雷锋网) 雷锋网
雷锋网特约稿件,未经授权禁止转载。详情见。