专访李飞飞：谷歌云的灵魂就是AI，创业者不要拿着锤子找钉子

亿欧网 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

【编者按】在人工智能领域，集才华与美貌于一身的华裔女科学家李飞飞一直都是一位学术瑰宝。近日她应邀参加极客公园大会，深受国内媒体及行业人士追捧。她也表示非常想了解国内人工智能领域的行业现状。本文为李飞飞即将启程回美国之际，接受新智元的采访稿。

本文转载自新智元，亿欧编辑，供行业内人士参考。

我没有离开斯坦福，加入谷歌云是为实践人工智能普世价值

新智元：您加入谷歌的消息成了大新闻。

李飞飞：首先我想说，我没有离开学术界。说来好笑，我这次来中国有些像一趟辟谣之旅（笑）。我也看到微信上的消息，有的说“李飞飞离开学术界，加入谷歌了”。这方面还是有一些误解的。我其实是在休学术假。在美国学术界有一个传统，那就是每7年教授可以休一次学术假。我已经连续教学12年了，从来没有休过学术假——我休过两次产假。这是我第一次休学术假，当然就有一些选择，我最后选择进入谷歌。

但是，我还是斯坦福的教授，我的实验室还在，我的博士生、博士后都在，我每周都会回去跟他们讨论研究工作。当然，我现在是在谷歌云担任首席科学家。我和李佳的团队，我们的使命就是整合谷歌云人工智能方面的工作。具体说，我一周有4天在谷歌，剩下1天在斯坦福。但是说实话，这并不能代表什么——工作并不是按“天”计算就行了。重要的是，我没有离开斯坦福。休假结束后，一到两年，我还是会回到斯坦福。我想我会一直处在教育的第一线。

实际上，我进入谷歌就6天——我1月3号入职，1月10号在谷歌上完最后一天班，11号在斯坦福开了一天会，12号就飞到中国了。我对谷歌的了解，和学术界对谷歌的了解差不多，Jeff Dean他们和我都是好朋友——学术朋友，大家通过研究有交流。

我选择去谷歌的原因就是考虑到人工智能的普世价值，云能够对应各个垂直的领域，比如金融、商业、医疗、制造、农业、教育、娱乐、传媒……这是特别重要的一点。如果说要涉足工业界、产业界，我自己最想学习的是如何真正把人工智能应用到大家需要的地方，而不是光是去画一个饼。

谷歌云的灵魂就是AI， AI是新的计算

新智元：最开始是其他公司联系您，然后谷歌云也来联系您，最终您决定加入谷歌云的，是吗？

李飞飞：是的。

新智元：您跟Jeff Dean在谷歌的定位有什么差异呢？

李飞飞：Jeff Dean是谷歌大脑的负责人，谷歌大脑是谷歌的研究团队，他们是研究为主的，包括基础研究在内。我们和他们会有很多的合作。云这边我负责的是整个研究和开发（R&D），有很多东西会跟产品部门合作。

新智元：也就是说会更贴近于产品了？

李飞飞：不是的，我认为这是一条完整的线，从基础研究一直走到产品，负责整个云的研发。所以，我的团队既会有做研究（research）的组，也会有做应用（applied）、做工程（engineering）和做开发（development）的组。

新智元：如果能选择的话，您会选择加入谷歌大脑或DeepMind这样的研究机构吗，还是说会继续留在谷歌云？

李飞飞：谷歌大脑和DeppMind都是世界上最优秀AI科研的团队，Jeff Dean、Demis Hassabis他们都是很了不起的研究者，在把握科技方向的同时管理很大的队伍。我选择去谷歌云，第一是因为我还是可以跟谷歌大脑、DeepMind他们合作，我依然能从他们那里学习，第二是因为云带来的是AI的普世价值，我不希望AI变成少数人的东西，成为一种特权。谷歌云之所以会存在，就是因为计算有普世的需求，各个产业，像刚才说的医疗、健康、金融、商业、制造……进入每一个垂直领域去思考你就会发现，不管是计算机视觉也好，还是语音识别、语义理解、文本处理，都有巨大的应用场景。比如说，各个产业都会有的客户服务，那这就是语音和语义的需求；各个产业都会有安保监控，那这就是视频的需求。我希望在工业界学习，我也有要在工业界实现的想法，虽然不可能全部做到，但要最大化实现，加入谷歌云是最好的选择。

新智元：在云计算方面，谷歌算是后来者。市场上有很多竞争对手，比如说亚马逊。您对云计算当前的市场竞争如何看呢？

李飞飞：我想说的是，谷歌是世界上AI力量最深厚的公司，也许这一两年大家才看到，但是在学术界这么多年了，互相学习交流、合作最频繁的公司就是谷歌。谷歌的AI-First是真心实意的AI-First。AI已经大量应用在它的产品当中，从搜索到设备再到云。不是说现在AI火了谷歌才开始做AI，不管是计算机视觉还是自然语言处理，还是机器学习，到后来的深度学习，谷歌大脑是在工业界第一个搭建深度学习大平台的机构，这一切都是用行动表示出来、实实在在看得到的，这样的技术实力、AI实力非常难得。所以，我对谷歌非常有信心。

云是人类最大的计算平台，这是云最大的特色。云最开始可能只是一个存储设施，很快我们就进入到数据，而数据也被称为“digital gold”。数据经过转化得到的就是信息，是商业决策，是对企业具有战略意义的资源。我们平时说，人工智能要帮助人类生活得更美好，但是怎么落地呢？我认为，云可能是目前最好的落地平台之一。

另外，站在科研的角度。实际上，我去谷歌云工作没几天就产生了这样一个想法，过去20多年的人工智能，尤其科研方面的进步，主要来自三大子领域的蓬勃发展，分别是机器学习、计算机视觉和自然语言处理。这三大子领域的发展，又主要来自互联网数据的推动。ImageNet就是一个再好不过的例子，这上面千万量级的数据都来自于互联网。可以说，数据带来了算法的思路，算法又促进了数据的信息化和知识化。

但是，进入到垂直领域后才发现，有很多非互联网数据和非互联网场景，一旦深入这些场景后你就会发现，还有很多的新的问题形式，需要进行更多的研发，这就形成了一个正循环。现在的人工智能技术可以满足人和企业的一些需求。在满足这些需求后，他们又会产生更多的需求，而这些更多的需求又会促进人工智能技术的进步。而且，这些需求跟互联网需求很不一样，因此会带来很多新的思路，这也是为什么我认为云在研究和开发这两方面都很令人兴奋，都能带来非常新颖的东西。

新智元：是不是说有一种新的趋势，以前的云计算现在逐渐变成一种AI云？

李飞飞：是的，我认为AI就是云的战略布局。可以这么理解——A就是新的计算。因为几乎所有现在需要计算的任务都需要AI的元素。计算（compute）本身就是让数据（data）产生信息、从知识中提炼决策的过程。现在的计算都是用AI来完成的，这也是AI该做的事情。当然，云还包括硬件、平台、基础设施和存储空间，这些是肯定的，但云的灵魂应该是AI。

新智元：我们此前与ARM的业者沟通，他们现在遇到的一个问题是云端的AI迭代速度较快，但终端——包括机器人，一些智能硬件、AR/VR，技术上还需要很长的发展过程。

李飞飞：终端和云端肯定是不一样的。云端有大的cluster，有大的数据，训练甚至可以离线（offline）。终端则需要快速、轻便、能量消耗小，所以就有很多具体的不一样的问题，涉及到推理（inference）。而推理的问题，从芯片到算法都还在不断地推进。人工智能要走得更精更细，这些都是要继续研发的。

独立的研究者，前方的视野应该是空旷的

新智元：您认为2017年AI产业界或学术界，有所突破或者爆发的点是什么呢，比如说对抗生产网络或是其他的几个技术热点？

李飞飞：我特别不知道该如何回答这类问题（笑）。实际上，我从自己做研究开始，就不是一个特别关注热点的人。如果我关注热点，就没有今天的ImageNet。当然，我并不是说不应当关注热点。我不希望这句话被理解为热点不好，我也需要谦虚地学习，像GAN（对抗生成网络）这样的新模型，我认为它非常具有创造性，是非常好的模型。但它也才刚刚开始，主要还是呈现出一些定性的结果（qualitative results）。

做研究而言，我一直鼓励学生要独立思考。每个人做研究都有不同的心得，我个人的心得是，眼睛看到的前方应该是比较空旷的。如果你眼睛看到的前方是热闹的，那这个方向就不是最好的研究方向。而空旷的地方一般都不是热点，因此你必须找准自自己的焦点。我比较喜欢研究一些基础的（fundamental）问题，这些问题有时候会是热点，有时候则会是“冷点”。科学家是最不能跟风、追求时尚的，科学家一定是追求原则性和原创性的东西。

要学习和研究计算机视觉，必须要做两件重要的事，一是知道过去，二是展望未来。知道过去当然就是大量阅读文献。我有一点担心，就是现在深度学习的热潮高涨，大多数学生只读过深度学习的论文。实际上，不管是计算机视觉还是自然语言处理、机器学习，都是走过了几十年的路程，有很多重要的工作都是在2012年之前完成的。计算机视觉在学术界，基本上完成了识别这个工作，可是很多学生可能都不知道，这是从上世纪五六十年代就开始的计算机和脑神经生物学基础研究一脉相承传递下来的，从Hubel&Wiesel的研究开始，到后面心理学家的研究，比如Irvine Biederman提出将物体分成几个不同的部分。这都是一步一步、一代一代去更新、去调整，不管是Yann LeCun 1998年提出的卷积神经网络，还是Hinton他们后来的工作，都传承了很多重要的思想，年轻的学生如果不去了解这种思想传承的过程，不从中汲取营养，就很难创造新的东西，只是知其然不知其所以然。所以，这是温故的一部分。而往前看，就像我刚才说的那样，研究的视野需要空旷，不要繁杂。计算机视觉走到今天也是到了一个转型期，纯粹的像素空间（pixel space）、识别（recognition），可能已经不是最新颖的思路了。目前看，有两个比较重要的新方向，一个是视觉和语言的结合，另外一个是视觉与机器人的结合。

另外，我们还有很多的没有解决的问题，也就是“open problems”，比如视频，现在处理视频基本上是平的，图片怎么处理就怎么处理视频，把视频分为N张图片串起来。但实际上，视频是很深奥的，涉及对运动、行为（behavior）、因果关系（causality）、动态（dynamics）、预期（intention）、代理（agent）这些因素的理解，这些环环相扣，都需要我们对计算机视觉有新的思考。

建立所有数据集的初衷，都是想通过汇集高质量的、标准化的、可衡量的、很准确的数据，推动领域里算法的进步。

做Visual Genome是因为在感知任务，比如图像分类有很多进展，但是在认知任务，比如图像描述和问答计算机表现得不怎么样。如果我们不仅仅诉求识别出图像，而要深究我们视觉世界的意义，那么认知是最核心的任务。用于解决图片内容丰富的认知任务的模型，依然使用给感知任务设计的相同数据集来训练。要在认知任务中获得成功，模型需要理解对象和物体之间的交互和关系。

CLEVR是我的学生Justin Johnson去Facebook暑期实习的时候，我们合作的一个项目。参与这个项目的还有 Facebook 的研究员Lawrence Zitnick，他也是参与COCO的研究者，对数据集有很深度的思考。我们设计CLEVR的目标很明确，那就是实现详细的视觉推理分析。尽管CLEVR中的图像可能看起来很简单，但它的问题却很复杂，需要一系列的推理能力。具体我们用了一个图像引擎，去模仿很多很多的场景，又回到了更像积木一样的世界。在这些场景里面，我们又自动生成了很多问题。比如说，“这张图里有没有和半球一样大的积木？”这些问题是在挑战这个计算机系统对场景结构的理解，这个结构里面包括物体的大小、材料，包括数字计算，也包括比较的能力、空间关系和逻辑运算。CLEVR旨在测试计算机的好几层的能力。

对创业者最大的建议，不要拿着锤子找钉子

新智元：虽然您提到才去谷歌6天，不过这边的氛围跟斯坦福还是很不一样吧？

李飞飞：是的，非常不一样。学术界的重心是学生和研究，而且学术界的研究氛围可以说是自由到极致，因为没有产品的压力。当然了，学术界也有学术界的限制和要求，但它毕竟不是一家公司。工业界的灵魂，至少谷歌的灵魂是工程师，他们是非常受使命驱动的（mission-driven）。

新智元：那您对国内的学者于工业界的合作或者是说转型有什么建议呢？

李飞飞：这是一个很个人的问题，我认为国内的学者他们都比我了解国内，他们都比我做得好，我还要向他们学习呢。

新智元：您对自动驾驶和计算机视觉相关的创业有什么建议吗，比如说好的切入点？

李飞飞：我很幸运身处斯坦福，这个地方接触到极多的创业者和投资人。我也受硅谷一个比较优秀的投资团队A16Z邀请出任顾问。我对创业者最大的建议就是，先去找你的市场，理解你需要解决的问题和去满足的需求，而不是拿着一个锤子到处去找钉子。

当然，有技术或研究上优势也可以创业，只是我认为更加冷静的做事方法是先找到需求，找准问题。创业需要有一种使命感（mission），是要解决问题，为企业解决问题也好，或者为个人消费者解决问题，这是创业的目的。每一个产业都有自己具体的应用场景，需要有懂这个场景、懂机器学习和人工智能的人去寻找解决方案。