人工智能"想象力"再升级 Deepmind 是如何做到的?
在行动之前去预想后果,这是人类认知能力中一种独一无二的强大能力。
举个例子,当我们将一个玻璃杯子放在桌子边缘的时候,我们都会习惯性的担心一下杯子放的稳不稳、会不会被碰下来打碎。这就是对放杯子这件事的后果的思考。为了避免不好的结果的出现,我们就会随着调节杯子的位置,避免杯子被摔碎。
而上述提到的这种慎重性的思维方式,其实是在运用人类的“想象力”。研究表明,这种“想象力”是人类的一种本能,我们的生活中处处存在这种“想象力”。
同样,如果我们希望 人工智能 算法也可以像人类一样实现这种“想象力”,进行慎重性的前瞻思考,那么算法也必须能够“想象”,对未来进行预测和推理。另外,算法还必须利用这些知识去调节行动计划。
截至目前,在这个研究领域,人类已经取得了丰富的成果, 例如AlphaGo这样的程序,利用“内部模型”,分析每步操作会在未来带来什么样的结果,从而进行推理并实施行动。 这些内部模型非常强大,围棋是一种有着明确规则定义的活动,因此要想在几乎任何情况下都准确地预测结果并不难。
但是,现实生活中的情况比围棋比赛复杂的多,生活中往往没有明确的规则,常常还会伴随意外的出现。即使是最聪明的人工智能系统,在这种复杂环境中展开想象都有很长的路要走,而且成本昂贵。
最近,在两篇最新论文中,人类找到了一种新的方法,让人工智能建立以想象力为基础的计划能力。 我们还提出一种新的方式让人工智能系统去学习并构建计划,实现效率最优化。 而对于不完美的模型,这些架构高效而稳固,可以利用灵活的策略去发挥想象力。
人工智能系统想象力的增强
“想象编码器”这种神经网络学习方式可以提取有用信息,用于未来决策,同时自动剔除不相关信息。
这种人工智能系统有以下优缺点:
一,表达内部模拟结果。 学会表达内部模拟结果也就意味着人工智能可以通过模型的构建,发现周围环境的变化,但这种捕获变化的精准度还有待提高。
二,高效利用想象力。 人工智能可以同时开启多个想象力轨迹以解决合理适配问题。同时编码器也提高了效率,还可以提取额外信息。但这种想象轨迹并不一定会带来收益最大化,但一定会带来有用的信息。
三,权衡不同策略构建计划。人工智能可以继续当前的想象轨迹,也可以重新开始一个新的想象轨迹。或者说,它们可以同时可进行多个策略的构建,并从中选择最优方案,而不会仅仅局限于一种单一的方法。这些模型拥有不同的精准度和计算陈本,进而带来广泛而高效的规划策略,避免对周围环境信息的不完全提取。
构架的测试
我们通过各种不同的任务去测试所提出的架构是否可行,其中包括推箱子游戏,以及一款太空飞船导航游戏。这两款游戏都需要前瞻性的规划和推理,因此是测试人工智能系统的绝佳方式。
在推箱子游戏中,人工智能系统成功将盒子推到目标之上。由于盒子只能向前推,因此许多操作是不可逆的,这就体现了其前瞻性。
在太空飞船游戏中,人工智能系统必须按照固定次数去启动推进器,使飞船保持稳定。这种操作需要适应不同星球的引力。因此,这是一种非线性的复杂持续控制任务,也可以检测该系统的架构是否合理。
为了限制这两种任务中的试错次数,每一关卡都用程序生成,而人工智能系统只有一次尝试的机会,这就鼓励人工智能系统在现实环境测试之前,进行多种不同策略的前瞻性分析,进而选择最优策略。
在以上两种任务当中,增加版的人工智能所表现出来的“想象力”比之前的人工智能都要表现的好,都目前仍无法企及人类的水平。增强版的想象力可以根据较少的经验进行学习,并且有能力处理建模环境中的不完美之处。人工智能系统可以从内部模拟中提取更多有效信息,因此相较于传统搜索方法,可以更高效地完成任务。
当人工智能系统面对多种不同环境的模型,每种环境模型的情况和优势各不相同时,它可以学会权衡进而做出最优选择。最后,如果每步行动会导致想象的计算成本上升,那么人工智能系统就会前瞻性地想象多个连锁行为产生的后果,随后基于这样的计划,而不会再次展开想象。
相关论文链接:
1.Imagination-Augmented Agents for Deep Reinforcement Learning
https://arxiv.org/abs/1707.06203
2.Learning model-based planning from scratch
https://arxiv.org/abs/1707.06170
编译:网易见外智能编译机器人
来源:Deepmind 审校:尚兔