百度首席科学家吴恩达详解百度大脑:如果IT行业是火箭,其发动机和燃料应如何合理配比?
在3月22日的2015年中国(深圳)IT领袖峰会上,百度首席科学家吴恩达作了题目了“深度学习与人工智能”的演讲,分享了人工智能发展的现状和趋势,并具体阐述了百度在人工智能的探索和规划。
吴恩达是著名的人工智能科学家,曾任斯坦福大学计算机科学系和电子工程系副教授、人工智能实验室主任,是GoogleXLab科学项目的创始人,现任百度首席科学家。曾入选《时代》杂志2013年度全球最有影响力的100人名单。
吴恩达是用英语演讲,以下为中文翻译,经投资界编辑整理:
我们看到新的人工智能技术出现,我们把它称为深度学习。深度学习给我们带来了巨大的价值,给很多的IT公司也带来很多的价值。我相信人工智能,我指的是新的人工智能,也就是深度学习给我们带来的影响将会越来越深远。在座的各位很多是企业的领袖,所以未来大家可能会做出对你的组织有利的很多重要的决定,可能是公司,也可能是大学,这都是在深度学习方面的,所以我想分享一些对大家有用的东西。 首先,我讲一下为什么现在人工智能的发展非常迅速,第二,要怎样进行投资来推动人工智能的发展,最后,是人工智能发展趋势,以及我们面临的机会和挑战。
我觉得这三个领域正在发生重大的创新 ,一个是图像,第二个是语音,第三个是行为。 我们先从图像开始,很多年前我还在斯坦福大学教课的时候,我问学生一个问题,就用当时一个人工智能的技术找到一个咖啡杯,结果非常乱,他们觉得整个厨房台面上放的都是咖啡杯。可是过去几年技术已经取得了巨大的发展,在这些年当中,人工智能的发展曾经一度比较低迷或者说比较慢,而在最近几年当中有一类新的人工智能技术出来了,我们把它称为深度学习,也就是使计算机学习了更多人类的神经系统,来更好地解决比如说图形识别的问题。我们有时候不是很清楚人脑究竟是如何工作的,而我们要真正把深度学习做好,就必须要了解人脑在做什么,人脑当中发生了什么,这对我们来说是非常重要的。
我们使用这些计算的结果,我们可以给他们提供很多的数据,比如咖啡杯图像的数据,这样我们可以获得更好的计算机视觉,做更好的辨识。我们对于网络神经的研究,对于人工智能的研究进行了好多年,所以有些人问我为什么在最近几年,比如最近五年才获得比较快速的发展,要回答这个问题我需要打一个比方。
比如如何构建火箭, 火箭的形状包括两件事情,一个是发动机,另外一个是燃料,这两部分是非常重要的,必须把这两方面做好,我们才能有机会把这个火箭发射到太空中去。如果你的发动机太小,燃料太大不行,发动机太大燃料不够也不行。所以火箭发动机和火箭的比例非常好才能够确保火箭准确地发射到轨道当中,这给我们深度学习也带来了一些启示。我们在深度学习的过程当中就像发射火箭那样研究巨大的神经网络在我们的社会当中每天都发生着巨大的活动,而且人们的活动多数都是围绕着他们的手机和电脑来开展的。我们如何利用这种新的情况呢,或者新的环境更好地帮助我们了解巨大的神经网络呢?
我们的社会越来越多地进行数据化或者数字化,我刚才已经说了人们很多生活都是围绕着手机和电脑来开展的。我想和大家分享一下我过去的一些经验,在IT世界发生什么,来构造更好的IT行业的火箭发动机和燃料的比例配比。在很多年前,当深度学习这个概念刚刚开始的时候,更多的是使用CPU技术,构建小的神经元网络只有100万或1000万的连接。我所说的是计算机连接的数目,之后我们取得了一些进展。其中在2008年发生改变的事情就是GPU技术的发展,我们看到它的连接数目也发生了巨大的增长,GPU是手机上、pad上的硬件来帮助你做计算,有些人意识到硬件对我们加速深度学习非常重要,发挥着非常重要的作用。我们借助CPU可以构造越来越大的神经元网络。在往后,我们看到了更多大规模的发展,像谷歌的深度学习项目,使我们更多地了解相关的知识,我们有了更多的云,更多的CPU来推动相关的发展。现在我们看到的,我也认为这是下一阶段的趋势,就是我们要从云技术,或者说仅仅利用纯技术跳到HPC或者叫高性能的计算技术,超性能的计算技术。我不想讲过多的细节,因为它会偏重于技术,让我们更多地来看今天所关注的话题,HPC和云,这可能是两个比较分离的社区,研究云和研究HPC的人也是两类人。随着云技术的发展,你可以同时使用上千台计算机,不用担心这么多计算机会发生崩溃,这种情况是不会发生的,现在已经认证了这点。而HPC技术比较小数目,但是更贵、更高性能的硬件,而我们也认为这对于我们构造更好比例的火箭引擎也是更佳的一个解决方案。
在中国,我们其实在一些领域是比较领先的,甚至领先于世界很多其他先进国家。HPC到深度学习的跳越,而其他国家也确实进行大量的投资,这也是需要我们注意的。使用这些火箭引擎,再做一个类比,我还想给大家举一个这样的例子,看我们究竟能做什么。比如说计算机系统对人脸的识别,这对我们来说也是比较重要的计算机应用。比如针对安全的目的,还有保安的目的,这都是在未来会越来越多的应用。大家对这张脸都很熟,美国著名的影星,通过人脸识别可以告诉我们是同一张脸,这当然是最佳的结果,不同的组织使用不同的技术,他们得到的结果也是不一样的,这是因为有时候这个软件的计算也会发生不同。
我希望大家参考一下这个柱状图就可以了解相关的计算结果了,我们是这周才宣布我们能够在这方面表现得比其他大多数公司都要好。
和其他公司相比,比如说和谷歌、脸书相比,谷歌和脸书的火箭燃料比我们多,也就是他们的数据比我们多。但是我们在发动机上的投资比他们多,我们在发动机上的投资多给我们带来巨大的好处。我们在发动机和燃料的比例方面要做得好才能确保这是一个好的火箭,我们正是在发动机方面进行大量的投资。所以我们才在人脸识别领域和其他领域比其他国际上领先的大公司要做得好。我们在人脸识别只有0.3几的错误率,大家可以看到我们的比例多么高,我给大家演示一下我们所发生的错误。
看一下这张脸,你觉得哪两张脸是动一个人的脸,还是都不同的?比如说在左边的女人的脸,和其他哪张脸是相同的,大家能告诉我吗?我们所犯的9个错误,其实就是发生在这里面,这些都是一个人,大家根本想象不到,他们都是一个人,发生错误可能是数据的关系,不是我们自身的关系。而下面是不同的人,大家能看出来了。我刚才提到了识别,像咖啡杯,还有人脸的东西,除了这些电脑能够做的事情,还有很多,它能够理解图片还有很多,如果我们能够在这方面做得很好的话,这张图片能够告诉我们很多东西。比如我们看左边,如果要求你写字幕的话会怎么写呢?你可能会写有一辆黄色的车 在路上 开着。如果要为右边的图片写字幕的话会怎么写呢?你可能会写起居室充满了下午的阳光。这个还不够充满激情,我们还可以通过深度学习让你了解更多的信息来写一篇更有吸引力的字幕。
一个计算机能不能了解你我了解的图片信息呢,或者能不能像人脑一样工作了解我们想了解的信息呢。可能结果是非常让大家吃惊的。现在我在图片上显示的字幕并不是人写的,而是机器写的,这就是我们百度可以提供的技术,也是我们起步的技术。而其他公司甚至还没有搞清相关的概念,他们有一个笼统的想法要提高电脑图像的识别,在过去几年,具体来说大概三年的时间内,计算机图像的技术发展非常迅速,现在计算机在图像识别上,比更多年以前要做得好得多。现在很多计算机公司甚至比很多人脑眼睛一眼看上去了解的信息还多。我们有一些想法、有一些产品,也有一些技术,我想说的是这些技术给我们开启了无限的可能,可以使我们来了解一下哪些产品领域是大有可为的。我们可以在图上了解一些相关的领域,比如百度还有其他的搜索引擎正在做的事情。我不知道一个非常清晰的路线图是怎样的,或者哪个领域会发展得更加迅速。
比如百度在衣服的搜索方面做很多东西。还比如对老年人的照顾方面,我们也做了一些探索,因为中国现在面临人口老龄化的问题。还有在可穿戴设备方面也有一些新的举措。我们希望在这些新领域的探索开启更多的机会,使我们可以创造更大的产业。