李飞飞:目前的图像识别已能通过短句指出,已非常接近于认知心理学
10月28日,2017未来科学大奖颁奖典礼暨未来论坛年会在京举办,斯坦福大学终身教授、谷歌云首席科学家李飞飞发表演讲。
李飞飞主要围绕智能视觉发表了自己的见解:
在过去的几年中,在视觉认知的分类挑战中存在一些标志性的项目,8年的时间里,分类识别的错误率就降低了十倍,所以这八年当中经历了非常大的革命。
Google搜索中,搜索过图像或者图集,比如可以输入穿西装的男性,可以展现出很多的图,如果输入可爱的小狗的话,有很多类似的图会出现,但输入句子:男性穿着西装,抱着可爱的小狗,瞬间结果不是特别好了。最近我们的实验当中做了这样一项工作,开始新的研究,预测根据深度学习,以及视觉化语言模式了解不同物体之间的关系。
目前,图像识别领域的成果是通过场景图,可以提供4层的分析结果,从而获得更多信息,“但这些是不够的,到目前我们只探索了认知心理学家讨论的概念”,李飞飞说道。除了简单的认知以外就是推理,推理可以让我们能够回到人工智能的最初。
李飞飞表示,目前可以将图像变成短句,从而出现更多内容,“这与认知心理学的实验结果是非常接近的”。
以下是演讲实录:
谢谢主持人,谢谢未来论坛科学大奖的邀请,再次回到我出生的地方,特别荣幸有这么多顶级的科学家聚在一起,讨论一些非常有意思,也会对未来有很大的影响的问题和学科。
今天我给大家带来的是最近的一些研究思路,今天我的演讲内容是关于视觉智能,动物世界当中有很多物种,而且有一种非常了不起,绝大多数动物都有眼睛,因此视觉是最为重要的一种感观的方法和认知方法,这是在动物的大脑当中,帮助动物在世界当中生存下来进行沟通,去操控和生存。
所以我们无论是讨论动物智能或者是机器智能的话,视觉是非常重要的基石。世界上所存在的这些系统当中,最为了解的一点是我们所知道的人类视觉系统。所以在5亿多年前的时候,这个进化已经不断地让我们的视觉系统不断地发展,使得我们的视觉系统非常重要的去理解这个世界,而且这是我们大脑当中最为复杂的系统,而且有50%的大脑当中的这些认知的单位,都有着最为复杂、最为高级的感知系统,所以能够让我们知道人类的视觉系统非常了不起。
这是认知心理学家做过的一个最为著名的一个实验,这也就是告诉大家人类的视觉体系有多么了不起,大家看一下这个视频,你的任务是如果看到一个人的话就举手,这是一个智商测试。所以每个图景的时间是非常短的,也就是1/10秒,不仅这样,而且让大家看一个人的话,并没有告诉你是什么样的人,或者他站在哪里,什么样的姿势,穿什么样的衣服,然而大家仍然能很快地识别出这个人。
1996年的时候,Newl(音译)教授学生证明出视觉认知能力是人类大脑当中最为了不起的能力,因为速度非常快,而且大概是150微秒,在150微秒之内,我们的大脑能够区别非常复杂的图像。会把非常复杂的含动物和不含动物的图像区别出来,那个时候计算机没有接近人类的,这种工作激励着计算机科学家,希望解决最为基本的问题就是图像识别问题。
过了20年到现在,计算机领域和专家也在这个问题上发明了几代技术,这个就是我们所了解到的这些图集,当然也取得了非常大的进展和进步。这张图表是给大家总结一下,在过去的几年当中,在分类挑战当中一些标志性的项目,横轴是时间年份,左边纵轴指的是分类错误。我们能够看到它的错误是降低了10倍。8年的时间里错误率就降低了十倍,所以这八年当中经历了非常大的革命。
2012年的时候了解了GPU技术,以及深度识别技术,帮助世界了解在深层学习革命的一个发展,所以非常令人激动的领域,尤其过去几十年在人工智能的研究。作为科学家就会想一下在这个图集之外,还可以做到什么。
通过一个例子告诉大家,两张图片,包括一个动物和一个人,通过图像识别来看这两个图非常相似,但是他们的故事却是非常不同的,当然你肯定不想在右边的图的场景当中,我们在这就会出现一个非常重要的问题,就是人们能够做的,这也是最为重要、最为基础的一点图像识别功能,就是识别图像物体之间的关系,首先这个输入是图像本身,但是我们所输出的信息包括物体的位置以及物体之间的关系。当然这个领域有一些前期工作,但是绝大多数工作都是比较有限的。获得数据和物体之间的关系信息比较有限。
最近我们的实验当中做了这样一项工作,开始新的研究,预测根据深度学习,以及视觉化语言模式了解不同物体之间的关系。
这张图的算法能够预测不同物体之间的空间关系,进行对比,了解这种对称的关系,然后了解他们之间的动作,以及他们的之间位置关系。所以这就是一个更为丰富的方法,了解我们的视觉世界,而不仅仅是一系列的物体名称,这是我们所做出的一些量化研究。说明我们的工作在不断地进展和取得进步的。
一年前的时候,我们知道这个领域发展非常快,就是关于计算机图像识别方面。我们也知道有很多新的研究已经超过了我们的研究成果。
我们可以看一下,在他们之间的关系是什么,而且在这个图像当中不同物体的关系,能够让我们去更进一步了解这个问题,就是在物体之间还会有什么样的数据集。最开始我们知道有这个形象,非常有限的信息,比如这是一个物体,COCO进一步学习,提供一个标签,进行短句子描述,视觉数据信息是非常复杂和非常多的。
根据途径出来一些问答,经过三年的研究,我们发现可以有更为丰富的方法来描述这些内容,通过这些不同的标签,描述这些物体,包括他们的性质、属性以及关系,然后通过这样的一个图谱建立起他们之间的联系。可以在这看一下这个内容。这样一个数据库当中,包括上千个标签,包括属性和关系,还有句子、问答信息,在我们这样一个信息库当中,能够非常精确地让我们来进行更加精确的研究,而不仅仅知道物体识别本身。
我们如何来去使用这样的图表呢?我们做过的一个工作,就是我们看一下这个场景的搜索,大家无论在百度还是在Google搜索中,搜索过图像或者图集,比如可以输入穿西装的男性,可以展现出很多的图,如果输入可爱的小狗的话,有很多类似的图会出现,这一点非常好。同时看一下他们解决了什么问题呢?是否解决了图像搜索的问题呢?我们输入一个句子,男性穿着西装,抱着可爱的小狗,瞬间结果不是特别好了。绝大多数搜索引擎的这种算法,在搜索图像的时候,可能很多还是仅仅使用物体本身的信息,他们只是简单地了解这个图有什么物体,但是这是不够的。
如果我想搜索一个坐在椅子上的男性的话,如果物体本身给我们一个人形象或者椅子形象再能加上更多的属性,加上更多的信息,这个结果就会更好一些。
2015年的时候,我们开始去探索一种新的呈现方法,我们可以去输入非常长的描述性的段落,放到大型的数据库当中,然后来把它和我们的图像进行对比,我们通过这种算法能够帮助我们进行很好的搜索,这就远远地超过了我们在今天的这个图像搜索技术当中所看到的结果。
这个看起来非常好,但是大家会有一个问题,在哪里能够找到这些场景图像呢?确实非常复杂,而且很难帮助我们构建起一个场景图,所以我们是手动地去构建这样一个场景,这个过程将会非常繁杂,所以我们下一步的工作,我们就是希望能够出现自动地产生场景图的一个技术。所以我们有这样一个自动的系统,当然是通过这种迭代的信息传递的模式,而且使用这种深度学习的呈现方法,当然太细节的内容在这不给大家讲了,但是要给大家传递的一个重要信息。我们今年夏天的时候的一个成果就是我们这个方法在场景图这方面的搜索成果是比现行的激活技术要更好的。
通过这样一种场景图,会给我们提供一个四层的过程,而且让我们更好地了解场景信息,但是还是不够的。而且实际上到现在为止,我们仅仅探索了认知心理学家所讨论的一个概念,人们在一眼之中能够看到什么样的内容,有什么样的概念,人们只要看一眼就能看出整个图像当中的故事,所以我们要去看一下,这种只看一下图就能够了解它主要信息的能力是什么呢?在我之前,曾经做过一个研究,就是希望人们能够告诉我们,你看到了这个图的时候看到了什么内容,所以这是我们的实验场景,实验人员坐在电脑屏幕面前,给它非常简短地看一些图像,然后很快地去看另外的一个图像,去遮盖之前留下的印象。他们需要打印出自己所看到的所有内容,做这个工作给他们付10美元,现在不给大家一小时10美元,大家可以实验一下这个感觉,如果你是参加我的实验人员的话。
在这个图当中其实很快能够被一张简单的途径去盖掉,很短的呈现时间,只有27微妙,27微妙相当于是1/40秒,简单图形的时间是半秒的时间,是更长的,人们还是能够很好地理解场景信息,基本上是很短的时间。如果我给的实验费用更高的话,大家甚至能做的更好。在这个语言当中有非常丰富的元素,不仅仅看到图像当中的物体是什么,他们的关系是什么,而且有更多的内容。
2015年开始,我们有另外一个概念,叫做LSTM,他们希望把语言之间关系建立起来,我们在电脑当中给他们一个图像,能够描述,穿橙色工作服的工人站在路上工作,或者穿黑色T恤的男士在弹吉他,不仅仅用简短的句子描述图形,所以后来进行进一步的工作,就是深度捕获。看每个短句,描述一个部分,然后描述图像的场景。
除了这个之外,我们今年所做的工作,我们希望把这些图像要用这些短语,让它成为小短的句子,成为一个小段落,给了更多的内容,而且和认知心理学家所做的实验当中,人类的描述结果是非常接近的。但是我们并没有只停于这里,在上个周的ICCB的上面展示了一个视频,非常丰富的研究区域,很多网络上的视频,有各种各样的数据形式,了解这些视频是非常重要的。在里面可以描述更长故事的片段,用同样的模型可以这样做,可以把时间的元素加入到里面。
这就是一个例子,大家可以看一下,可以看到视频是在进行着的,我们也可以去描述每一个部分是怎么样的。
这是另外一个例子,也是描述了这个演员正在做的这些事情,差不多大家能明白什么意思了。
另外一个部分,除了简单的认知以外就是推理,推理可以让我们能够回到人工智能的最初,在20世纪七八十年代的时候,人工智能的先驱们,用了很多推理,斯坦福大学的一个教授也是把他的研究称为一个块状的世界,这里面涉及到很多的深度推理。蓝色还是不错的,喜欢这些蓝色的块状,不喜欢红色的块状,不喜欢支撑三角形的东西,到底喜欢不喜欢灰色的盒子呢?所以这里有很多推理需要去做的,然后够得出一个正确的答案。
当然时间过得很快,不能讲的特别详细,但是我们在实验室里也是用了这些简单的工具,来描述这样一个分块状的世界。这里面也有很多的问答列表,每个问答列表都是涉及到推理的过程当中,最关键的一些环节,包括空间的一些关系,一些逻辑关系,在这里面也有一些问答例子。
去年,我们也是把这些智能的问答集做成了这样一个系统,人类能做多少,机器能做多少,在准确上面的一个对比。我们到底怎么能够做得更好呢?这也是最近我们做的一个工作,在ICCB发表的。我们用了一个新的程序去做,在我们的算法里面,我们把这些问题输入进来,然后把程序进行一些协调,还有执行的引擎,用预测的一些程序进行执行的处理。通过这样一个算法,我们可以看到这些学习的准确率。
有哪些学习模块呢?首先判断到底这些物体形状怎么样,这些紫色是什么样的,这是一个更加复杂的,就是在灰色的这些模块旁边,有多少发光的这些物体?得出的结果是2。
我给大家分享的就是一系列的工作,有哪些能够超越我们视觉的一些途径,其实我们在了解到场景,还有其他的一些要素,对于整个的认知会产生什么样的影响,除了这个情景、视觉、语言,还有很多推理等等,这些都是很重要的。
最后,用这张图来结束,这是20周大的一个小女孩,随着她的认知世界的发展,她通过很多游戏,她也可以通过画画以及各种玩具,来和世界建立认知,这是认知视觉的智能,对于我们的理解、交流、协作、互动等等,视觉智能都是非常非常关键的,让我们开始探索这个世界。