OpenAI“约束强化学习”：AI安全探索要从娃娃抓起！

猎云网 • 5年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

早在18世纪，“人工智能”便已经进入概念性的启蒙阶段，如今当一波波人工智能浪潮涌来之时有人欢喜有人忧：大多科技公司在欣喜中紧紧的抓住了人工智能释放的红利，但与此同时也有为人工智能紧锁眉头的领军人物。

还记得那个要上天（太空探索公司SpaceX）遁地（地下高速隧道）的电动汽车公司特斯拉创始人伊隆·马斯克曾放话——人工智能猛于核武器：“我觉得人工智能的危险要远大于核武器的危险。请再次记住我的话，AI 要比这危险得多。”、“现在我最担心的事情就是人工智能......”。

2015年，深感AI危机意识的马斯克和多位硅谷科技大亨促膝长谈后决定共同创建OpenAI。

这是一个由诸多硅谷大亨联合建立的“人工智能非营利组织”，旨在其能够预防人工智能的灾难性影响，推动AI发挥积极的作用。

当然OpenAI近年来取得的一系列成就也没有让马斯克失望：单手玩转魔方的机器手、将多种音乐进行重组的“MuseNet”（深度神经网络）等。

如今OpenAI在“安全约束性”上又玩出了新花样：开源了Safety Gym。

Safety Gym：为拯救“AI犯错”不遗余力

Safety Gym是一套用于评估强化学习智能体在训练过程中是否遵守了“安全性约束”的训练环境和工具，简单来讲，这套工具是要让AI减少试错的可能性，在其训练的过程中约束、规范他们。

要明白迄今为止，数据科学领域的许多工作都集中在算法的规模和复杂度上，但在“AI安全”上——即防范危害，还是一个时常困扰技术人员的问题。

MIT首席研究型科学家Karl Iagnemma曾说：“你用安全驾驶的案例训练出一种黑箱算法，但是算法输出后却要应对变幻莫测的现实情况。”

人类可以在外界的多重信息环境下判断一辆车的轨迹变化亦或者会决策到其是否会撞上自己，相比之下，算法这方面的能力边略显低下。

而强化学习智能体需要不断的探索他们所处的环境来学习新规范，达到最佳理想行为：他们会在反复试验的情况下来判断是良性行为还是不良行为，然后基于大量的尝试增加其良性行为的可能性并同时减少不良行为的可能性。

说白了，AI走的是一条“失败是成功之母” 的不归路。

虽然成功是建立在无数次失败之上的，但事实上有些错误是不能尝试的，我们总不能通过反复的撞车、撞人来避免车祸现场吧！

真若如此，那么马斯克口中的“人工智能猛于核武器”就不远了。

这就是“安全探索”问题，所以“约束行为、增强安全意识”得从娃娃抓起。

在这种“安全探索”上首先要进行的是为其量化，于是OpenAI采用了一种形式化主义的量化方案：即约束强化学习（Constrained RL）。

这种约束化学习相比普通强化学习的RL，除了有最大化的奖励功能外还增加了约束智能体的成本函数（cost function），即惩罚。

比如在自动驾驶案例中，在计算一辆自动驾驶车于最短时间内从A地到达B地所获的最大奖励时，我们下意识会忽略其在中间所发生的“撞车行为”。

理想状态下自动驾驶车辆在符合交通安全标准之下以最快速度达到，但实际在AI中，这常常被忽略。

而Safety Gym的开源，就是为了约束强化学习的研究。

在Safety Gym环境中，引入了三个人工智能机器人：点（Point）、车（Car）、狗狗（Doggo）；机器人们必须在混乱的环境中导航才能完成三个主要任务（Goal、Button和Push），其中每个任务有两个难度级别。

机器人都必须在混乱的环境中导航才能完成任务。

一共有三个预制机器人（Point，Car和Doggo），三个主要任务（Goal，Button和Push），每个任务有两个难度级别，每次强化学习智能体执行一个不安全的操作即当一个红色的警示灯在代理周围闪烁时，相应就会产生成本。

以其中一个预设机器人Doggo为例，Doggo是个四足机器人，在其臀部与腿部接触的位置都有两个控件，分别控制相对于躯干的方位角和仰角，同时膝盖上也有个控制角度的控制器。

目标任务（Goal）：使其转到一系列目标位置。

OpenAI“约束强化学习”：AI安全探索要从娃娃抓起！

按钮任务（Button）：按下一系列目标按钮。

OpenAI“约束强化学习”：AI安全探索要从娃娃抓起！

推动任务（Push）：将方框移到一系列目标位置。

OpenAI“约束强化学习”：AI安全探索要从娃娃抓起！

在OpenAI给出的Safety Gym中有五种安全约束元素：混乱区域、易碎花瓶、按钮、柱子和小怪兽。

在这些视频中，其中也展示了在没有约束的情况下，当机器人执行不良行为时，智能体周围会以闪烁警示灯进行警告，此时便会产生成本，即惩罚。

这套训练环境工具Safety Gym与普通的强化学习的现有环境相比，Safety Gym环境更加丰富，并且具有更高的难度和复杂性。

OpenAI表示，将在未来的工作中改进当前Safety Gym环境下的性能，使用Safety Gym调查安全AI训练技术，并将约束强化学习与人类偏好等隐式规范相结合。

它同时也希望帮助制定一个可能衡量人工智能系统安全性的指标。

说起这套约束AI犯错的训练环境和工具，不可少提源头是OpenAI于2016年研发的一款开发和比较强化学习算法的工具包“OpenAI Gym”。

令人匪夷所思的是，一个强化学习算法，便能让计算机从零开始从像素中自动学会玩大部分Atari游戏，而且达到了人类的表现水平。

OpenAI Gym由两部分组成：gym开源库和OpenAI Gym服务。使用这款算法工具包可以让AI智能体做很多事情：移动、跳跃及进行多种游戏，甚至也提供了多种环境，比如Atari、棋盘游戏以及2D或3D游戏引擎等。

OpenAI的使命就是确保人工智能使全人类受益，起码马斯克对它的定位是这样的。

但如今随着OpenAI在人工智能的道路上不断推陈出新，那么这家不以盈利为目的的组织究竟是如何长久的运行。

据悉在成立之初时，马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔（Peter Thiel）等其他硅谷巨头便曾承诺向OpenAI注资10亿美元。

而且在今年7月份，OpenAI又一次得到了来自微软10亿美元的助力，微软表示将协助其开发打造AGI（通用人工智能）平台，来解决更多的科学难题，推进人工智能的不断发展。

推广：猎云银企贷，专注企业债权融资服务。比银行更懂你，比你更懂银行，详情咨询微信： zhangbiner870616 ，目前仅开通京津冀地区服务。