微软芮勇:计算机视觉已通过图灵测试 但路还很长

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

微软芮勇:计算机视觉已通过图灵测试 但路还很长

网易科技讯 8月13日消息,由中国计算机学会(CCF)主办、雷锋网承办的全球人工智能与机器人峰会(GAIR)在深圳召开,在峰会现场,微软研究院芮勇发表了名为《计算机视觉:从感知到认知的长征》主题演讲。

芮勇在演讲中表示:计算机视觉是人工智能中非常重要的一个方向,在过去50多年间,计算机视觉经过了对图片的摄取、处理、识别和理解的过程。

首先是特征提取,对于图像中的像素进行重要性差别提取,然后再对重要的元素进行标注,通过标记成为计算机能够识别的符号,让计算机能够理解图片的内容,生成一句话对图片进行描述。这是目前微软研究院能够做到的,并且成功通过图灵测试。

他介绍称,深度学习彻底改变了图像识别领域,未来计算机视觉还能实现图片更高层次的识别,甚至达到视频识别,对于输出方面,不仅能够输出一句话,还能通过给AI发送图片进行聊天,计算机自动识别图片,并对图片发送者进行逻辑对话。

最后,芮勇称让计算机视觉识图还有很长一段路要走,但随着从感知到认知的技术发展,给计算机一幅图片,让它给你一个故事是可以实现的。(Sherwood)

以下是芮勇的演讲实录:

非常高兴下午有这个机会跟大家聊聊计算机视觉,我的题目叫《计算机视觉从感知到认知的长征》。

我想回顾一下计算机视觉过去50年的发展。今年的2016年也是人工智能这个词被创造出来的第60年,之前其实没有这么一个词,60年中国人叫一个轮回,轮回总是会有大的飞跃,我们看看2016年人工智能有什么大的飞跃?

人工智能从最开始有很多的领域,我本人花的时间最多的是计算机视觉,人有各种感官,但人70%的信息是靠人的眼睛来看到的,计算机视觉也是人工智能当中一个非常重要的方向。

最早大家说能不能可以让计算机可以看到,像人类的眼睛可以看到一样。过去的50年的发展,我们可以看到,是从社群到处理到Recognition到理解,就像我们画一幅画一样,从最早的线条,到一定的灰度,到最后的全彩色的,这50年都做了些什么事情?我们可以看一看,我想用这张图片跟大家分享一下。

人看一张图片觉得很简单,我一看觉得这是一个人、这是一张桌子、椅子,人一下就理解了,计算机看到的很难,因为计算机看到的就两个东西,不是0就是1,让计算机看到图片里包含什么内容非常困难。这50年走过了很多路,从最早的特征提取,比如说这么一幅图,它的特征有线条、有转角,有色彩,之后第二步比这个更前进,叫标注。这幅图比如说是一个户外的场景,里面有人物,比这个更前进一步,叫Annotation。比这个再往前走一步,我们对图片的理解就是Captioning,我如果把这个图片给计算机去看,它能不能生成一段我们人类看得懂听得懂的文字,比如乔治和他的父亲在迪士尼乐园在玩一个游戏,这么一句话,这就更难了。比这个再难一点,我给计算机这个图片,我问计算机几个问题,比如说这个图片里面坐在前面那个人穿什么颜色的衣服?计算机这时候要知道什么是人,衣服在哪里,它要回答是红色的衣服,这就更难了。比这个再难一些的就是我们小时候都上过课,叫做看图认字,看图说话,计算机看到一幅图之后,能不能生成一个故事,这就是这50年我们大家孜孜不倦想做的事情。

我们来回顾一下这50年是怎么走的,第一步是特征提取,计算机看到的除了0就是1,当然有些像素更加重要,哪些象素作为提取这很重要,比如这张图,每一个像素的重要性是不一样的,画圈的地方是我们想把它作为特征的一些地方。再往下看,第二步我们想给一个图片进行标注,进行标注的话,我们就想知道,比如说图片里面有两个人,他们是在户外的活动,这件事情怎么做?我们来看一下是怎么做的。

这个就是很重要的一个部分,有三个部分,第一个部分是图片的分类,这个时候我们回答的是什么问题呢?这张图片里面是不是含有一只小狗。第二个就更难一点,计算机还要告诉这个小狗在什么位置,把它框出来。第三个更难,每一个象素能不能告诉我这个像素是属于这个小狗身上的像素还是电视机上的像素?一个比一个难。过去的这十年,还有很大很大的发展,我们来看。

第一步,图象分类,图象分类在计算机视觉里有一个全球性的比赛,叫ImageNet,里面有120万个训练样本,有10万测试图像,1000个类别,你让计算机看没有见过的图片,帮你分出来这是1000类里的哪一类。

2012年之前,深度学习没有引入计算机视觉之前,大家看看错误率,靠右边的是2010年的错误率28.2%。2012年的时候,深度学习第一次被用在图象识别,错误率一下降到16.4%,每年的错误率越来越低。2014年有个斯坦福的博士想挑战一下。我如果告诉你一千类里有两百来种狗的不同类型你就知道有多难了,我只认识四五种狗,但要做到上百种狗都能对,非常困难。斯坦福博士关在屋子里训练了几个月,他的错误率是5.1%,去年降到了3.5%,第一次超过了人类的错误率。

2012年深度学习第一次引入计算机视觉,当时有八层,它的错误率降低。再往下走,2014年到了19层,错误率继续降低,到2015年,我研究院的同事做出了152层的极深网络。大家觉得往下做没什么了不起,其实想做得深很难,在2015年以前,全球没有几个团队能做到超过20层,因为是训练不下去的,所以这是一个非常好的工作。用神经网络,不仅是每一层延到下一层,有的之间还可以转跳。

这是图片的分类,解决的问题是图片里面是不是有只小狗。更难的是这只小狗在什么地方,物体的检测。七八年以前,全球能做到最好的程度也就是这样,今天通过深度学习的方式已经可以做到这样的水平。你看最左边的女士她只是把胳膊肘露出一点,腿露出一点。再往下看,这个大公共汽车后面的司机我们解释说这是一个人,现在已经达到这样的水平,跟人类的视觉水平已经不相上下。

比物体检测更加难的是在图片的每一个像素,像素是属于小狗还是属于屏幕?我们可以看一看今天用深度学习的方式,也已经可以把像素级的图像分割做到这样的水平。

(视觉)

芮勇:大家可以想一想,如果能做到这样的水平,今后无论是无人机还是无人驾驶,很多应用都可以做了。

这是我刚才提到的第一个问题,就是对物体的识别,比这个更难的是我们是不是理解了,计算机是不是理解了某一个图片。我们看一看。Beyond远远超过了计算机视觉。如果只是用最近的方式去做搜索,其实它并没有理解,比如说你的一个输入是靠左边这个人,它就把右边这几个从搜索引擎返回,这个并不是理解,这还算不上理解。真正的理解是什么呢?我给计算机看到有这么一幅图片,它能生成一句话,说本和他的爸爸在迪士尼乐园玩。

我如果让计算机看这么一幅图,下面我想跟大家做一个小的互动,在这个具体的问题上,我们能不能超过图灵测试,有两句话:第一句话叫做一个人在网球场上手拿着一个网球拍,测试大家的英文是不是还记得。第二句话:有一个人在网球场上打一场比赛。大家觉得这两句话哪一个是人写出来的?哪一个是机器写出来的。

(举手)

勇:基本上50%50%,我们看看哪个是人写的哪个是机器写的。上面的是机器写的,如果在座的诸位是50%的话,已经可以通过图灵测试了。

我们再试一题,上面停了一辆自行车,有两句话,一句话是小河边停了一辆自行车,第二句话是水体旁边有一辆自行车停在。哪句是计算机写的?

(举手)

芮勇:现在大不部分人认为下面一句话是计算机写的。我们来看看,下面是人写的。我们又一次通过了图灵测试。

这是给计算机看一个图片,它生成的这么一句话,比那更难一点的是前一阵奥巴马一家带着小孩来访问,我们如果让计算机看到这么一幅图片,它如果只是告诉我有几个人在拍照也没意思,它如果有本事告诉我说,Sasha奥巴马、米歇尔奥巴马,彭丽媛,我们大概前50万名人都能认出来是谁,并且我们生成了一句话说,这几个人在故宫前面拍照,已经可以达到这样的水平。

再往下看,具体算法可能没有那么多时间去讲。但基本上是从名人到具体的物体,通过各种深度学习的方式能生成出这么一个自然语言的话。

我们再往下看,这就是整个的流程,算法等等就不用花时间去看了。已经可以让计算机看到一个图片,讲出一句还挺像样的话,下面还可以往哪里走,我觉得至少四个方向可以走。第一个方向是说在语义的层面上,Go higher,我们能不能想到一些没讲出来,但它能推理出来的意思。第二个我们给它看一段视频是不是也能讲出一段话,Go longer。第三个是它能跟我聊天。第四个我可以问他具体问题,他能回答。

第一个,Go higher,如果我给计算机看这么一幅图片,今天能做到的水平就是这样,有一群象,前面有一个人,这是我们之前可以做到的水平。今天可以做到的水平,因为有实体,我们可以说一群象在奥巴马的旁边,因为我们可以识别出这个人是奥巴马。我们希望做到什么水平?它引申的一些含义,我们人来看到这个可以想到很多引申含义,今年正好是美国总统大选年,民主党是驴,奥巴马是民主党,共和党是象,它的意思是说奥巴马被共和党的一些竞选者在追赶,我们今后如果能生成这样一句话,我们对图片的理解真是到了一种认知的水平,但还没有做到。

第二个,Go longer,我们给它看视频,它也能生成一句话,当然这里面有很多的算法,具体算法我就不一一介绍,基本上是用一个深度学习的网络,然后目标函数里面由两种叠加在一起的新的水平。

这是我提的两个方向,第一个把它的隐身含义讲出来,第二个是把视频也能够用文字的形式表达出来。第三个我想提的是,比如说我们今天跟小冰聊天,我们敲一段文字,它也能回一段文字,我们给它上传一张图片,它是不是也能跟我们聊呢?今天它也能了。它今天可以做到的水平是,如果我上传了一张图片,它会说小眼神太犀利了,这就像人在聊天一样,已经可以做到这样的水平。比如说你想秀秀六块腹肌,它会跟你说大叔真牛。不仅仅是文字的聊天,图片也可以聊天,这都是得益于我们对计算机视觉技术的发展和深度学习的发展。

第四个方向,稍微花多点时间讲讲,我觉得这是很有意思的方向,不仅对科研、产业界来说都很有意思。叫做Visual Question Answering,我问计算机一个问题,什么东西在自行车筐里?我们希望它的答案是说狗,但是想做到这一点很难,你首先知道自行车在哪儿,筐在哪儿,筐里有什么东西,都不容易,但今天我们有技术,能够把这个做到。怎么做到呢?我稍微提一下这个算法。

四个部分,两个输入,第一个是你问的问题是什么,你问的问题是说自行车的筐里面是什么,这是一句话,这是第一步。第二步是你同时还给计算机看一个图片,有个Image model,我们用深度学习的方式把两种不同的模式做两次之后,就知道和这个问题最有关的部分就在亮的这个部分,这就是和问题发生关系的地方。如果知道这个区域和这个问题发生关系就有很大的可能性知道答案。

还有更多的几个例子要跟大家分享,比如我们让计算机看这幅图片,问:在一片空旷的海滩上,两个蓝色的椅子中间那是什么物体?这是它答案的过程,第二层聚焦到伞,一把太阳伞。还有更多的例子,在一片泥泞的土路上,什么东西在拖着马车?答案是马在拖着马车。右边那个,筐的颜色是什么?答案是红色的。右下角这个女士戴着两只红色牛的角,答案是说红色的,它知道牛角的颜色是红色的。这些都是我们今天通过计算机视觉的方式达到问题的回答水平。

刚才回顾过去50年计算机视觉发展的历程,从最早的特征提取,有直线转角,直到说这是一个户外的场景,场景里面有人,到说这个图片里面这个人的名字是什么,到生成一句话来描述这个图片,到最后我刚才提到的Visual QA,还有很长的路要走,就是我们看到图能讲出一个故事来,这是我们今后要做的事情。

我今天的题目叫《计算机视觉从感知到认知的长征》,长征大家也知道,最早是从江西的瑞金开始长征的,很具有里程碑的事件就是遵义会议,最后很成功的走到陕甘边区,今天的计算机视觉也是一个长征,但还没有到达陕甘边区,今天2016年我们取得了很大的成就,很像遵义会议取得的成就,但今后还有很长的路要走,这就是长征的一部分,怎么样最后到达陕北,至少三个方向可以想。第一个是计算机学习算法的本身。今天“深度学习”这个词很热。今天因为有了好的算法,深度学习算得很成功。

第一块很重要的能让我们到达陕北的就是计算机学习算法。第二个就是我们需要一些计算机的科学家,我们也需要和一些垂直行业的朋友们一起来做这件事情,比如我们是和做金融的朋友们,就像上午杨强讲的,我们能预测股票市场。我们如果和懂医疗的朋友来做,可不可以做出更精准的医疗,如果和植物所的朋友来做这件事情,是不是可以做出一个用手机拍照任意的花,或者一个树,我就知道这个花叫什么名字,树叫什么名字,最早从哪里来?等等。我想说这个的目的就是除了机器学习的专家之外,还要和很多垂直行业领域的专家一起合作这件事情。

第三个,右下角这个圈我觉得也一样重要,我们需要高质量的数据,这三点如果我们都能做到了,机器学习算法本身的进步,我们和行业的专家们的合作和更多的数据的获取,我们就能从瑞金经过遵义到达陕北。

谢谢大家!

随意打赏

通过图灵测试计算机视觉图灵计算机图灵测试
提交建议
微信扫一扫,分享给好友吧。