整天看片,就能预测未来?

雷锋网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

整天看片,就能预测未来?

我们在看电影电视剧时,常常遇到看了开头就知道结尾的片子。在这种“预测”行为中,其实我们不自觉地调取了日常生活中的各种经历和过往,在大脑中闪电般地计算出一个事件发生的大致概率分布,然后才得出了结尾的剧情桥段。

可是你有没有想过机器预测未来这件事,要怎么实现呢?它们可没有“生活经验”可谈。试想,如果机器具备了预测未来的能力,世界将会变成什么样?那时,世界杯、NBA都成了概率计算,美国总统大选也成了数学游戏,明年会发生什么问问机器人就知道了,是不是还挺可怕,挺无趣的?不过,目前还不用担心,当前的技术水平毕竟还没有这么先进,但是来自美国麻省理工的几位大神却在向着这个方向努力,并且取得了一些成果。

本周,来自麻省理工计算机与人工智能实验室的研究者们,发明了一种针对视觉机器人的全新算法,凭借该算法,视觉机器人可以一边看电视剧一边告诉主人:男主下面可能要跟女主握手,下面可能拥抱,下面可能kiss,下面可能击掌欢庆(没错,目前只支持这4种行为的预测)。另一方面,机器人还能根据当前的图像预测5秒之后可能出现什么物体,比如打开冰箱之后5秒,机器人告诉你可能出现一盒牛奶。

谈到他们具体是怎么实现该神奇功能时,来自该实验室的Carl Vondrick博士表示(他同时也是该项研究的领头人):人类具有通过自己的历史经验和教训预测未来的能力。我们想证明,通过向视觉机器人输入大量的 YouTube 视频和电视节目,再经过一些列的算法分析和加工,就能让机器人具备类似我们人类的预测能力。

实现思路

通常的视觉预测方法大概有如下两类:一个是单独分析图像中的每个像素点,然后计算下一幅图的像素组成。这种方式其实更像是画画,而不是计算机科学,Vondrick博士表示。第二种是预处理一些图片,由人工标明哪些是风景,哪些是人物,然后再输入计算机进行运算,这种方式显然不适合大数据量的预测,也不适合实际应用。

与这两种方法不同,Vondrick博士的团队发明了一种新的算法,据称可以实现“视觉表达”。该算法并不是以单独的像素点为单位,而是以一组像素为单位,进行整幅图像的预测。比如具有鼻子、眼睛和嘴巴这些像素点的一组像素,可以视为一张脸,然后用“脸”作为基本的运算单位来进行整图分析。

此外,团队还在算法中引入了深度学习, 神经网络 系统的算法,通过输入大量的视频图像数据,然后让机器自己分析和学习,类似于AlphaGo那样整天自己跟自己下棋,这个机器人通过自己一个人整天看片的形式,学习其中人物的各种动作特征,从而达到预测的能力。

该系统在预测时是多线程并行工作,然后以类似于“加权取平均”的形式得到最终结论。由于目前只支持拥抱、握手、接吻和击掌四种行为,因此分为四个并行线程,然后系统将四个线程的结果统一汇总,得到一个最终预测结果。比如,三个线程都预测下面会接吻,第四个预测是拥抱,则结果可能就是接吻了。

Vondrick博士说:视频并不像《选择你自己的冒险》系列丛书中所写的那样,人们能清晰地看到每一种选择。现实是,未来通常都难以预测。但是,我觉得能通过团队的努力,运用数据和算法计算出每一种可能的结局,这也是一件激动人心的事。

测试方法

让系统独自看片达600小时之后,研究人员开始对系统输入一些新的视频,并开始训练和测试。

第一步是让机器预测下一秒,视频里的人物会做什么(当然还是从拥抱、握手、接吻和击掌这四种选其一)。测试结果显示,准确率可以达到43%,这比目前已知的其他算法要提高7%的准确率。

第二步是输入视频中的一帧图像,然后让机器预测五秒后会出现什么物体。比如,看到一个人打开微波炉,机器可能预测5秒后出现一个咖啡杯。测试结果显示,这一步的正确率高达73%。

研究者们还请了一些志愿者来做对比测试,发现人类志愿者的预测准确率只有71%,还略低于机器算法。

Vondrick博士表示:在人类的社交行为中隐含着许多的细节,我们希望可以研究这些细节,预测更复杂的人类行为。

未来如何

虽然现阶段来说,该算法的准确度还并没有达到实际应用的水平。但是Vondrick博士表示,该团队非常看好算法未来的发展,他们认为该算法可能被应用在诸多的安保领域,例如预测有人要闯红灯,然后发出告警等。

Vondrick博士说:我很好奇如果花费一个人一生的时间,输入足够数量的数据到机器里,将会达到怎样的预测水平。我们将很可能看到一个在现实生活中真实可用的预警机器人,那时人类的生活将会发生怎样的巨变?

据称,该项目得到了美国国家科学基金会和谷歌的资助。

还有一个关于该算法的视频介绍请点击 这里

来源: mit

随意打赏

能预测未来预测未来
提交建议
微信扫一扫,分享给好友吧。