一看就会！英伟达新研究教机器人仅通过观察人类行为完成任务

IT思维 • 6年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

公众号/新智元

新智元编译

来源：news.developer.nvidia.com

翻译：肖琴

NVIDIA的研究人员开发了第一个可以教机器人仅通过观察人类的行为来完成任务的深度学习系统。该方法利用合成数据来训练神经网络，是第一次在机器人上使用以图像为中心的域随机化方法。

一看就会！英伟达新研究教机器人仅通过观察人类行为完成任务

论文地址：https://arxiv.org/abs/1805.07054

来自NVIDIA的研究人员开发了一个基于深度学习的系统，该系统可以教机器人仅通过观察人类的行为来完成任务。该方法旨在加强人与机器人之间的交流，同时进一步研究如何使人类无缝地与机器人一起工作。这是第一个这样的系统，研究由Stan Birchfield和Jonathan Tremblay领导。

“要想让机器人在现实世界中执行有用的任务，必须要能很容易地将任务传达给机器人。这包括预期的结果以及任何关于达到该结果的最佳方法的提示。”研究人员在他们的研究报告中指出。“通过演示，用户可以将任务传达给机器人，并向机器人提供如何以最佳的方式执行任务的线索。”

研究人员使用NVIDIA TITAN X GPU训练了一系列神经网络来执行与 感知、程序生成和程序执行 相关的任务。结果显示， 机器人能够通过观察现实世界的单个演示来学习任务 。

一看就会！英伟达新研究教机器人仅通过观察人类行为完成任务

该方法的工作方式：一个摄像机被用来捕获场景的实时视频流，并且通过两个神经网络实时地对场景中对象的位置和关系进行推断。由此产生的知觉被输入到另一个网络中，该网络生成一个解释如何重建这些感知的计划。最后，一个执行网络读取该计划并为机器人生成动作，同时考虑到当前场景的状态，以确保对外部干扰的稳健性。

一旦机器人得到一个任务，它就会生成一个 人类可读取的 关于重新执行该任务所需步骤的描述。该描述让用户能够在机器人执行之前快速识别和纠正机器人对人类演示的解释中的问题。

实现这种能力的关键是 利用合成数据来训练神经网络 。目前训练神经网络的方法需要大量有标记的训练数据，这对这类系统来说是一个瓶颈。通过合成数据生成，不用太费力就可以生成几乎无限的标记训练数据。

这也是第一次在机器人上使用 以图像为中心的域随机化方法 。域随机化（domain randomization）是一种产生大量多样性的合成数据的技术，然后愚弄感知网络将真实世界的数据看作是其训练数据的另一种变体。研究人员选择以图像为中心的方式处理数据，以确保网络不依赖于摄像机或环境。

研究人员说：“如描述所示，这个感知网络适用于任何固态的现实世界物体，这些物体可以通过其3D边界立方体（bounding cuboid）来模拟。”“尽管训练过程中从未观察到真实的图像，但感知网络能够在真实图像中可靠地检测到物体的bounding cuboid，即使在有严重的遮挡的情况下也是如此。”

在他们的演示中，研究团队用几个彩色积木和一辆玩具汽车训练目标检测器。系统被教授“块”（blocks）的物理关系，不管这些“块”是堆叠在一起还是彼此相邻放置。

在上面的演示视频中，人类操作员向机器人展示了一组立方块。系统然后推断一个适当的程序并按正确的顺序将立方块正确地放置好。因为它在执行过程中会考虑当前世界的状态，因此系统能够实时地从错误中恢复过来。

研究人员将在本周于澳大利亚布里斯班举行的机器人与自动化国际会议（ICRA）上发表他们的研究论文和工作。

该团队表示，他们将继续探索使用合成训练数据进行机器人操纵，以将他们的方法扩展到其他场景。

论文地址：https://arxiv.org/abs/1805.07054