机器人可跟视频学做饭,那谁来洗碗呢?

创见网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

懒得做饭的上班族和暗黑料理的大宗师们,还在为做饭发愁吗?Maryland 大学正在研发的一款机器人,在看完 YouTube 上的烹饪视频后,就能把饭菜做出来。

如果要我给「想要机器人替我做的那些事」划分一下层级的话,那么做晚饭的级别还应该在洗衣服、代驾汽车和代写所有文稿之上。就我们现有的机器人而言,可以做到的最好的程度,也只不过是依照预设的步骤把任务勉强完成而已。我们已经见识过了很多款会做饭的机器人,但总的来说,它们都只是遵循提前编程好的命令进行操作而已。告诉机器人要做什么以及怎么去做,是机器人技术中最棘手的环节,特别是针对我们这些终端用户而言,要是我们只需要坐下来,让机器人自己看 YouTube 上的视频来学做饭的话,可就太好了。

一项旨在实现这一愿景的项目,已经由 Maryland 大学立项成功并着手研究了。而在本文中谈到的研究内容,都来源于一篇论文,名为《机器人复杂操作学习计划——以网络视频为来源渠道》。这篇论文切实地论述了机器人的视觉工程进展:机器人首先观察视频中的人处理各项物品的方法,再思考得出那个人正在做什么、以及该怎么去做,最后通过机器人的复杂操作学习能力,将之前看到的动作复原出来。

Michigan 大学有一套名为 YouCook 的数据集,涵盖了 88 段在 YouTube 上完全公开的烹饪视频。每一段视频都添加有一段描述性的自然语言、每一帧都拍摄到了烹饪所需的各种物品、每个动作都配有注解。利用这些数据,Maryland 大学的研究人员就开发出了两种卷积神经网络:一种是对视频里的物品进行辨识和分类,另一种则是对视频中厨师的动作进行辨识和分类。

当物品被辨识为相似的类别时,对动作的辨识就显得尤为重要了,因为机器人可能会设计具有不同的终端执行装置,用以进行不同目标的操作行为。此外,不同的动作也可以提示机器人下一步该做什么。下面的这段话摘自论文:

动作不仅涵盖了纯意义上其代表的信息,还可以被用来预测接下来的动作,或是作为辨识其他动作的特征之一。此外,动作还涵盖了这一小段动作的开始信息和终止信息,从而可以被用来切割视频。如果我们想让机器人实施一个动作,机器人就必须要习得「怎样处理物品」的知识,这样才能设计出自己最终的执行动作。比方说,想象一个机器人,它有一对平行方向的抓握手和一只具有真空吸附技术的抓握手。如果命令是力性抓握的话,那么机器人应该选择真空吸附的抓握手以确保能稳稳抓住物品;但如果命令是精确抓握的话,那么平行方向的抓握手应该是个更好的选择。

在这个设定下,动作就被分为六种类别:力性动作和精确动作,再按动作的对象细分为小型物品、大型物品和球面物品。物品则同时被划分为 48 个层级,从「苹果」到「打蛋器」不等。基于 YouCook 数据集的测试显示,机器人系统的对所有动作和物品的辨识精度达到了 80%,而 68% 的动作和物品成功地被整合成了能让机器人执行的命令。

在未来的工作中,研究人员打算开发出更细化的分类方式(优越于上述 6 种只按力性、精确性河物品大小进行的分类法),并且利用新的分类法更好地预测视频中的下一步操作。如此一来,我们以后就只需要在 YouTube 上找好视频,就可以坐享其成,让机器人为我们做饭了。

本文来源: IEEE


天使汇闪投 Speed Dating,产品级线下融资路演,致力于让优秀的项目遇到智慧的投资人。从 10 月 31 日到现在,每期 8 个优质项目,50 个投资人,平均每个项目路演结束拿到 8 位投资人意向,40% 的项目一周内完成融资,创业项目 请点击这里 报名参加本期闪投。

标签: 机器人 Youtube 卷积神经网络 YouCook 力性抓握 精确抓握

随意打赏

提交建议
微信扫一扫,分享给好友吧。