机器人可跟视频学做饭，那谁来洗碗呢？

创见网 • 10年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

懒得做饭的上班族和暗黑料理的大宗师们，还在为做饭发愁吗？Maryland 大学正在研发的一款机器人，在看完 YouTube 上的烹饪视频后，就能把饭菜做出来。

如果要我给「想要机器人替我做的那些事」划分一下层级的话，那么做晚饭的级别还应该在洗衣服、代驾汽车和代写所有文稿之上。就我们现有的机器人而言，可以做到的最好的程度，也只不过是依照预设的步骤把任务勉强完成而已。我们已经见识过了很多款会做饭的机器人，但总的来说，它们都只是遵循提前编程好的命令进行操作而已。告诉机器人要做什么以及怎么去做，是机器人技术中最棘手的环节，特别是针对我们这些终端用户而言，要是我们只需要坐下来，让机器人自己看 YouTube 上的视频来学做饭的话，可就太好了。

一项旨在实现这一愿景的项目，已经由 Maryland 大学立项成功并着手研究了。而在本文中谈到的研究内容，都来源于一篇论文，名为《机器人复杂操作学习计划——以网络视频为来源渠道》。这篇论文切实地论述了机器人的视觉工程进展：机器人首先观察视频中的人处理各项物品的方法，再思考得出那个人正在做什么、以及该怎么去做，最后通过机器人的复杂操作学习能力，将之前看到的动作复原出来。

Michigan 大学有一套名为 YouCook 的数据集，涵盖了 88 段在 YouTube 上完全公开的烹饪视频。每一段视频都添加有一段描述性的自然语言、每一帧都拍摄到了烹饪所需的各种物品、每个动作都配有注解。利用这些数据，Maryland 大学的研究人员就开发出了两种卷积神经网络：一种是对视频里的物品进行辨识和分类，另一种则是对视频中厨师的动作进行辨识和分类。

当物品被辨识为相似的类别时，对动作的辨识就显得尤为重要了，因为机器人可能会设计具有不同的终端执行装置，用以进行不同目标的操作行为。此外，不同的动作也可以提示机器人下一步该做什么。下面的这段话摘自论文：

动作不仅涵盖了纯意义上其代表的信息，还可以被用来预测接下来的动作，或是作为辨识其他动作的特征之一。此外，动作还涵盖了这一小段动作的开始信息和终止信息，从而可以被用来切割视频。如果我们想让机器人实施一个动作，机器人就必须要习得「怎样处理物品」的知识，这样才能设计出自己最终的执行动作。比方说，想象一个机器人，它有一对平行方向的抓握手和一只具有真空吸附技术的抓握手。如果命令是力性抓握的话，那么机器人应该选择真空吸附的抓握手以确保能稳稳抓住物品；但如果命令是精确抓握的话，那么平行方向的抓握手应该是个更好的选择。

在这个设定下，动作就被分为六种类别：力性动作和精确动作，再按动作的对象细分为小型物品、大型物品和球面物品。物品则同时被划分为 48 个层级，从「苹果」到「打蛋器」不等。基于 YouCook 数据集的测试显示，机器人系统的对所有动作和物品的辨识精度达到了 80%，而 68% 的动作和物品成功地被整合成了能让机器人执行的命令。

在未来的工作中，研究人员打算开发出更细化的分类方式（优越于上述 6 种只按力性、精确性河物品大小进行的分类法），并且利用新的分类法更好地预测视频中的下一步操作。如此一来，我们以后就只需要在 YouTube 上找好视频，就可以坐享其成，让机器人为我们做饭了。

本文来源： IEEE

天使汇闪投 Speed Dating，产品级线下融资路演，致力于让优秀的项目遇到智慧的投资人。从 10 月 31 日到现在，每期 8 个优质项目，50 个投资人，平均每个项目路演结束拿到 8 位投资人意向，40% 的项目一周内完成融资，创业项目请点击这里报名参加本期闪投。

标签: 机器人 Youtube 卷积神经网络 YouCook 力性抓握精确抓握