整天看片，就能预测未来？

雷锋网 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

整天看片，就能预测未来？

我们在看电影电视剧时，常常遇到看了开头就知道结尾的片子。在这种“预测”行为中，其实我们不自觉地调取了日常生活中的各种经历和过往，在大脑中闪电般地计算出一个事件发生的大致概率分布，然后才得出了结尾的剧情桥段。

可是你有没有想过机器预测未来这件事，要怎么实现呢？它们可没有“生活经验”可谈。试想，如果机器具备了预测未来的能力，世界将会变成什么样？那时，世界杯、NBA都成了概率计算，美国总统大选也成了数学游戏，明年会发生什么问问机器人就知道了，是不是还挺可怕，挺无趣的？不过，目前还不用担心，当前的技术水平毕竟还没有这么先进，但是来自美国麻省理工的几位大神却在向着这个方向努力，并且取得了一些成果。

本周，来自麻省理工计算机与人工智能实验室的研究者们，发明了一种针对视觉机器人的全新算法，凭借该算法，视觉机器人可以一边看电视剧一边告诉主人：男主下面可能要跟女主握手，下面可能拥抱，下面可能kiss，下面可能击掌欢庆（没错，目前只支持这4种行为的预测）。另一方面，机器人还能根据当前的图像预测5秒之后可能出现什么物体，比如打开冰箱之后5秒，机器人告诉你可能出现一盒牛奶。

谈到他们具体是怎么实现该神奇功能时，来自该实验室的Carl Vondrick博士表示（他同时也是该项研究的领头人）：人类具有通过自己的历史经验和教训预测未来的能力。我们想证明，通过向视觉机器人输入大量的 YouTube 视频和电视节目，再经过一些列的算法分析和加工，就能让机器人具备类似我们人类的预测能力。

实现思路

通常的视觉预测方法大概有如下两类：一个是单独分析图像中的每个像素点，然后计算下一幅图的像素组成。这种方式其实更像是画画，而不是计算机科学，Vondrick博士表示。第二种是预处理一些图片，由人工标明哪些是风景，哪些是人物，然后再输入计算机进行运算，这种方式显然不适合大数据量的预测，也不适合实际应用。

与这两种方法不同，Vondrick博士的团队发明了一种新的算法，据称可以实现“视觉表达”。该算法并不是以单独的像素点为单位，而是以一组像素为单位，进行整幅图像的预测。比如具有鼻子、眼睛和嘴巴这些像素点的一组像素，可以视为一张脸，然后用“脸”作为基本的运算单位来进行整图分析。

此外，团队还在算法中引入了深度学习，神经网络系统的算法，通过输入大量的视频图像数据，然后让机器自己分析和学习，类似于AlphaGo那样整天自己跟自己下棋，这个机器人通过自己一个人整天看片的形式，学习其中人物的各种动作特征，从而达到预测的能力。

该系统在预测时是多线程并行工作，然后以类似于“加权取平均”的形式得到最终结论。由于目前只支持拥抱、握手、接吻和击掌四种行为，因此分为四个并行线程，然后系统将四个线程的结果统一汇总，得到一个最终预测结果。比如，三个线程都预测下面会接吻，第四个预测是拥抱，则结果可能就是接吻了。

Vondrick博士说：视频并不像《选择你自己的冒险》系列丛书中所写的那样，人们能清晰地看到每一种选择。现实是，未来通常都难以预测。但是，我觉得能通过团队的努力，运用数据和算法计算出每一种可能的结局，这也是一件激动人心的事。

测试方法

让系统独自看片达600小时之后，研究人员开始对系统输入一些新的视频，并开始训练和测试。

第一步是让机器预测下一秒，视频里的人物会做什么（当然还是从拥抱、握手、接吻和击掌这四种选其一）。测试结果显示，准确率可以达到43%，这比目前已知的其他算法要提高7%的准确率。

第二步是输入视频中的一帧图像，然后让机器预测五秒后会出现什么物体。比如，看到一个人打开微波炉，机器可能预测5秒后出现一个咖啡杯。测试结果显示，这一步的正确率高达73%。

研究者们还请了一些志愿者来做对比测试，发现人类志愿者的预测准确率只有71%，还略低于机器算法。

Vondrick博士表示：在人类的社交行为中隐含着许多的细节，我们希望可以研究这些细节，预测更复杂的人类行为。

未来如何

虽然现阶段来说，该算法的准确度还并没有达到实际应用的水平。但是Vondrick博士表示，该团队非常看好算法未来的发展，他们认为该算法可能被应用在诸多的安保领域，例如预测有人要闯红灯，然后发出告警等。

Vondrick博士说：我很好奇如果花费一个人一生的时间，输入足够数量的数据到机器里，将会达到怎样的预测水平。我们将很可能看到一个在现实生活中真实可用的预警机器人，那时人类的生活将会发生怎样的巨变？

据称，该项目得到了美国国家科学基金会和谷歌的资助。

还有一个关于该算法的视频介绍请点击这里

来源： mit

随意打赏

能预测未来预测未来