专访Facebook AI实验室主管Yann LeCun：机器将能通过看视频学会常识

亿欧网 • 8年前扫码分享

2013年，深度学习被评为《麻省理工科技评论》年度十大突破技术。深度学习是机器学习的一个分支，利用多层人工神经网络，能从极大的数据量中学习，对未来做出预测，让机器变得更加聪明，已被运用在图像和语音识别、虚拟助手、生物医药、交通运输等诸多领域。

也正是在5年前，软件识别图像的准确度因此突然实现了飞跃，这背后的人工神经网络技术引领了人工智能潮流的爆发。这也是为什么谷歌和Facebook能让你在图册中进行搜索，这项技术还支持了脸部识别类的新应用。

如今，人工智能领域大神级人物、Facebook人工智能主管Yann LeCun表示，机器视觉的下一站将会是以自主观察世界的方式进行学习。

Yann LeCun 是Facebook人工智能研究组的主管，同时也是纽约大学的终身教授，这位著名学者开辟了将神经网络运用于机器视觉的先例。他对DT君的美国同事Tom Simonite表示，目前该领域还有很大的进步空间，未来计算机或许会掌握常识性东西。

以下是独家专访的精彩内容：

机器视觉目前发展到了什么程度？

如果你有一张主体明显的图片，让机器给它分类，这很容易办到。只要你有足够的数据量，大概每类物品上千张图，机器就能够进行具体识别，比如某品牌的汽车或某类植物或某品种的狗。稍微抽象些的事物也难不倒它，比如风景、日落、婚礼或生日宴会。但在5年前，我们甚至都不知道这个问题有没有解决的可能性。

不过，这并不代表现在机器视觉问题已经被解决了。

有什么关键问题还没有被“解决”？

人们鼓捣了很多年如何给图片和视频自动加入字幕或描述。表面上说，已经有些实现的方式令人印象深刻。

但实际上，它们并没有看起来的那么惊艳，那些机器的专业程度很大程度上受限于我们训练它的环境。你如果向机器出示其他种类的物体或非正常情况，大多数机器就会一脸茫然，它们并没有常识。

视觉和常识有什么联系？

这取决于你去问谁，就连Facebook内部的人也对此有意见分歧。你可以与智能系统只进行语言交流，问题是语言是一个相当低带宽的渠道（信息密度低）。要明白，语言能承载很多信息只是因为人们拥有大量的背景知识，能够去帮助理解这些信息。

还有些人认为，给人工智能系统提供足够信息的唯一方式是加入视觉认知，影像会比语言的信息密度高得多。如果你告诉机器“这是一部智能手机”，“这是一辆压路机”，“有些东西你可以推动它而有些不可以”，也许机器能够学会些这个世界的基础运作原理。这跟幼儿的学习方式类似。

然而，幼儿在学习很多事情的时候并不需要明确的指示。

我们很想做到的一点是，让机器通过观看视频或观察其他东西来认识到现实世界中的很多局限性，这最终会让它们建立起常识。

这些东西是动物和幼儿在生命最初的几个月内的主要学习内容，你通过观察就学会了多到不可思议的东西。目前机器还十分好骗，那是因为它们对这个世界缺乏基本理解。

让软件自主观察学习的技术发展到哪一步了？

能够自主学习的系统也应该能够预测未来，我们对这个想法十分感兴趣。比如，你给机器看一小段视频，然后机器就能预测接下来会发生什么。

如果我们能训练系统做到这一点，那么我们就已经创造了无监管机器学习的核心技术。

我认为，这上面会发生很多有意思的事情。这项技术的应用绝不仅局限于机器视觉——这是我们AI宏图的重要组成部分。