吴恩达亲自采访百度林元庆和谷歌 Ian Goodfellow,他们对AI入门者有何忠告?
本文来自 AI科技评论 (微信号:aitechtalk),译者晓凡
AI 科技评论按: 随着吴恩达公开 Deeplearning.ai 系列深度学习课程,他也出人意料地放出了一系列主题为“The Heros in Deep Learning”的采访视频。吴恩达亲自上阵采访了“深度学习教父” Geoffery Hinton、“GANs之父” Ian Goodfellow、“深度学习三驾马车”中另一位 Yoshua Bengio 、UC伯克利教授 Pieter Abbeel 、百度研究院院长林元庆 、“深度学习网红”Andrej Karpathy、苹果 Ruslan Salakhutdinov 这7位深度学习界重要人物。
吴恩达此举的目的之一当然是宣传推广 Deeplearning.ai ,但他也希望大家从课程中了解深度学习的技术思维之后,也能够认识几位深度学习界的重要人物,他们在这个领域的创立和发扬光大中发挥了很大的作用。而且他还请这些重要人物们给新入门的人提一提职业建议,应该如何进行研究,或者如何找到工作。
吴恩达采访林元庆
林元庆是现任百度深度学习实验室(IDL)主任,拥有清华大学光学工程硕士学位和宾夕法尼亚大学电气工程博士学位。林元庆在机器学习和计算机视觉等研究领域拥有多年的研究经验和显著的成果,曾担任NIPS大会领域主席、大规模视觉识别和检索国际研讨会联合主席等。在加入百度前,曾带领NEC的研究团队在深度学习、计算机视觉和无人驾驶等领域取得世界领先水平。
另一方面,今年2月,国家发改委正式批复由百度牵头筹建深度学习技术及应用国家工程实验室,实验室将由百度深度学习实验室主任林元庆、百度深度学习实验室科学家徐伟、清华大学张钹院士和北京航空航天大学李未院士组成团队。除了牵头方百度外,实验室共建单位还有清华大学、北京航空航天大学、中国信息通信研究院、中国电子技术标准化研究院等单位。
吴恩达 :谢谢元庆,很荣幸可以邀请您参加这次采访!那么,现在您担任着百度研究院的院长,中国政府想要建立一个全国性的深度学习研究院(AI 科技评论注:深度学习技术及应用国家工程实验室)的时候也选择了您来负责牵头,那在我看来,您就是全中国最重量级的深度学习专家。关于您的研究我有很多问题想问,不过在此之前,我想先请您讲讲您自己的故事,您是如何一步步来到今天的位置的?
林元庆 :好的。其实在我读博之前,我的专业是光学,更接近做物理的,我也就有很不错的数学背景。后来当我来到美国,我也在考虑博士应该读什么专业,是继续读光学还是读别的。那时是2000年前后,微电子技术非常热门,但是我想要选一个更刺激的。那时刚好有个好机会去宾夕法尼亚大学听了几节 Daniel D. Lee 的课,后来他也就是我的博士生导师。当时听完课以后的感觉是,机器学习是一件很有意思的事情,我觉得很激动,就换了专业,在宾大读了机器学习的博士学位。我在那里待了5年,始终都让我觉得很带劲,有很多事情都是从零学起的,很多算法、甚至PCA,我在那之前都不知道,每天都有新东西学,对我来说是一段非常有意思的经历。
吴恩达 :那时候有很多著名的学者做出了很多研究,但是都没有得到足够的重视。
林元庆 :对的。NEC也是一个有趣的地方,我在那里一开始是研究员,在那里也是学到了很多新东西。我也就是在NEC的时候开始研究计算机视觉的,其实开始的挺迟的,相对比较迟。我在那里做的第一件大事就是参加了 ImageNet 比赛,还是比赛的第一届,我带了一个团队在研究。我觉得特别幸运,我们团队很强,最后真的拿下了比赛第一名。
吴恩达 :世界上第一个赢得 ImageNet 比赛的人
林元庆 :没错,而且我也是在 workshop 上做演讲的那个人,这段经历很美妙。这也是让我走向超大规模机器视觉方向的一件事,从那以后我研究的都是很大规模的计算机视觉问题。到后来 AlexNet 之类的网络出现的时候我觉得很震惊,我心里说“深度学习真的很厉害”。我也就是做了很多这方面的研究。
吴恩达 :那么作为深度学习国家级实验室的负责人,您肯定在里面领导着很多有趣的研究吧?其中有可以讲给全球的观众们听听的吗?
林元庆 :这个国家级实验室的目标是建立超大规模的深度学习平台,甚至建立全球最大的平台,起码中国最大吧。在这样的平台上,我们可以给研究者提供深度学习框架,比如PaddlePaddle,还有计算技能和资源,以及超大规模的数据。如果有人能够借助平台做研究、开发出新技术,我们也会给他们提供应用的机会,比如把新技术对接到百度中,新技术就可以迭代、升级。所以我们就是把这些资源整合到一起,从而成为一个强大的平台,而且还可以,比如有人发布了一项研究成果,别人想要重复他的结果的话,就需要找地方下载代码到自己的电脑里,要找到他用的数据集,还要能够正确地配置代码才能让模型跑起来,都会花不少的功夫。在国家级实验室的平台上,这些事情都会变得轻松很多,如果研究是在平台上进行的,平台上就会有这些代码,代码的计算环境也是设置好的,数据集也是现成的,要重复结果的话,输一行指令就好了。这样就基本解决了计算机科学方面的重复性问题,几乎是几秒钟时间就可以开始运行在别人论文中看到的成果。这样的事情就很厉害,这也就是我们在国家级实验室做的事情之一,来保证我们给机器学习的研究和工业界提供了非常强大的平台。
吴恩达 :这个很棒啊,能大大加速深度学习的研究进程。能不能介绍一下为了建立这个国家级实验室,中国政府都提供了多少资源呢?
林元庆 :中国政府提供了许多资金构建这个国家级工程实验室的基础设施,但是我觉得更重要的是这件事会成为国内的一件标志性的事件,引发更多的人进行深度学习研究,比如国家级项目、政策支持等等。这样就会形成强大的力量。对百度来说,这个实验室也是一件大事。
吴恩达 :您是中国深度学习界的核心人物之一,不过全球研究者的了解还不多。您有哪些关于中国深度学习的事情是想告诉中国之外的人的吗?
林元庆 :我觉得在过去几年中,深度学习驱动的产品在爆发式增长,从搜索引擎、词语识别,到安防、电子商务,有非常多的应用,它们也都在深度学习方面做出了很多努力,真的借助这些技术把自己的产品变得非常强大。总的来说这样的环境对 AI 技术的研究也有很大意义,不仅是我,很多人都觉得形成一个“正向循环”是非常重要的。比如当我们考虑用技术构建应用的时候,我们有一些初始数据,有一些初始算法,发布一个初始的产品;然后就可以从用户获得数据,获得更多的数据就可以构建更好的算法,更多数据和更好的算法就可以带来更好的技术、更好的产品,那么就可以吸引更多的用户,就又有了更多的数据。这就是一个正向循环,而且也是人工智能相关的技术特有的现象。传统的技术就不是这样,比如激光,我学过激光嘛,那么传统技术的发展就比较线性,而人工智能技术因为有这样的正向循环,就很容易想象在某个点上一定会出现技术的飞速增长。我们在研发开发中也会很看重这样的过程,我们研究这个规律,来让自己更快地达到这个飞速增长的点。如果我们商业模式没办法形成这样的正向循环,我们可能就不会沿那个方向走下去,因为别人可能会有很强的商业模式、很强的循环、更快地达到高技术水平。这就是我们公司里在挑选做哪些方向的时候的重要逻辑。
吴恩达 :现在美国、在全球有很多人想要参与到深度学习和人工智能中来,您对想要加入的人有什么建议吗?
林元庆:现在的人有很多开源框架可以作为入门的选择,对初学者来说这些框架功能很强大。当我刚开始学习深度学习的时候,没什么开源资源。现在在人工智能方面,尤其是深度学习,有很多的开源资源,是非常好的研究社区,有很多个很好的深度学习框架,比如TensorFlow、Caffe,现在都已经是Caffe2了,在中国还有PaddlePaddle也很不错。大多数框架都能找到许多线上课程教你如何使用,公开的benchmark也有很多,人们可以去围观那些厉害的、有经验的研究者,看看他们的表现如何。所以想要了解深度学习的话,这些方面都很方便起步。
吴恩达 :您对深度学习的深入了解是如何形成的?
林元庆 :我其实跟刚才说的刚好相反,我先接触的都是 PCA、LDA 等等数学方法,然后才开始做深度学习。不过我觉得这个方式也不错,构建了很多基础、学了图模型。现在深度学习当然是主流,不过有这些知识的话,就对深度学习的运行方式有了更好的直觉。深度学习和这些基础框架之间本来也有各种联系,这些知识也会让这种联系更紧密,也让做深度学习的方式更加丰富。所以我觉得从那些强大的开源框架开始学习很好,同时我也建议学习一些机器学习的基础知识。
吴恩达 :谢谢!您讲的非常精彩!我认识您这么久,但是都没有听到过您考虑问题时候的这么多细节。谢谢!
林元庆 :感谢邀请!
吴恩达采访 Ian Goodfellow
Ian Goodfellow目前是谷歌大脑的研究员,也是机器学习界的大名人。他是 Yoshua Bengio 的弟子,最近 Ian Goodfellow、Yoshua Bengio、Aaron Courville三人合著的“花书”「Deep Learning」中文版「深度学习」也上市了,是领域内最优秀的教材之一。 让 Ian Goodfellow 名声鹊起的是他提出的 GANs 生成式对抗性网络,为解决生成式问题提供了革命性的思路,从提出以后一直是热门的研究课题。
吴恩达 :Ian 你是全世界最出名的深度学习研究员之一,给我们讲讲你的故事吧,你是如何开始做现在的工作的?
Ian Goodfellow :嗯好的。其实我认识你的时候才接触机器学习没多久,我以前学的是神经科学,我在斯坦福读本科时候的导师鼓励我看看你的“AI入门”课程。
吴恩达 :这样啊,我还是第一次听说
Ian Goodfellow :对。那时候我觉得人工智能听起来挺美的,但是实际看到它们的时候都是游戏里的那种 AI,人们提前给游戏里的NPC编好固定的规则,他们就可以根据那些脚本在不同的时间地点说不同的话。然后这样我就看了你的“AI入门”课程,你在课里讲了线性回归、线性回归误差的偏置-方差分解,我就开始意识到这是一门真正的科学,可以把 AI 作为科学事业去做,不再做神经科学了。
吴恩达 :不错~ 然后呢?
Ian Goodfellow :后来我就来旁听你的课,其中有个很大的转折点是,这门课的学生里有个人是我的朋友 Ethan,他掉进 Geoff Hinton 的深度信念网络论文里出不来了(AI 科技评论注:Ian 的原话是“got arrested in Geoff Hinton’s deep belief net paper”,这个用词好精彩),后来为了运行玻尔兹曼机,我们俩人就用课后时间造了一台基于CUDA GPU的计算机,是斯坦福最早的之一。那个时候我就建立起了这样的信念,未来应当是属于深度学习的。我也研究过其它的算法,比如支持向量机在很多时候感觉还是不理想,面对更多数据它会更慢,或者是对于一样的训练数据,没有什么别的参数可以调整来优化它的表现。这时候开始我就尽可能多地学习深度学习。
吴恩达 :我还记得有篇很老的GPU论文,认可了很多你做的早期工作
Ian Goodfellow :对的,那些都是在我们早期的机器上完成的。第一台机器是我和Ethan两个人自己出钱在Ethan家造出来的,后来的第二台第三台就是用实验室的钱造给斯坦福实验室用的。
吴恩达 :厉害啊,我还真不知道是这样的。那么到现在,让深度学习突飞猛进的重要事情之一就是你发明的GANs,你是怎么想出来的?
Ian Goodfellow :我研究生成式模型研究了好久,GANs就是一种建立生成式模型的方法,你手里有很多训练数据,然后想要创造更多类似的数据,不过是要创造全新的、从来没有以那种形式出现过的数据。在我想到GANs之前,构建生成式模型有好多热门方法,我读博士的时候对它们都做了仔细的研究,就对它们的优点缺点都非常清楚,比如玻尔兹曼机、稀疏编码等等当时几年内都很热门的方法,我就想找一个能够避开所有这些方法的缺点的新方法。后来当我和朋友在酒吧里争论的时候,终于有个灵感划过,我就说要做如何如何就行,那个朋友不相信。那时候我其实应该是正在写「深度学习」课本的,但是我特别相信这个想法肯定能行,所以我当晚就编程把它写出来,然后也真的成功了。
吴恩达 :就花了一晚上就实现了GANs的第一个版本
Ian Goodfellow :我从朋友的送别聚会出来回到家的时候大概半夜,然后花了一晚上写出来。事后想起来的时候觉得特别幸运,第一个版本就成了,不用调超参数什么的。
吴恩达 :我从别的地方听到一个传闻说,你有一次接近死亡的经历,而且它让你对 AI 的投入更坚定了,能给我讲讲吗?
Ian Goodfellow :嗯,其实不是真的快要死掉,但是觉得自己很可能会死,那时候头特别疼,有几位医生说我可能有脑出血。所以就做了MRI来确定到底有没有脑出血,在等MRI结果的时候我就意识到,那时候我大多数的念头都是想让别的人能够试试我的研究想法,其实很多想法都挺傻的,不过那时候我意识到,我生命中最大的财富之一其实就来自于自己进行更多的研究。
吴恩达 :啊,所以当你觉得你快要死去的时候,你心里想的是要把研究做完。这种决心真的让人觉得震撼。然后,现在你仍然参与很多GANs的研究,那么你觉得GANs的未来如何?
Ian Goodfellow :现在GANs可以用来做很多不同的事情,比如在监督学习中,给其它的模型生成训练数据,甚至模拟科学实验。根本上来说,这些事情都可以用其他的生成式模型完成,所以我觉得GANs现在在一个重要的交叉路口面前,目前的GANs有时候效果很好,但是真的要发挥出GANs的厉害之处就靠的不都是科学,更像是一种艺术。这就跟十年前人们对深度学习的总体感觉一样,那时候我们用的是基于玻尔兹曼机的深度信念网络,它们特别特别难处理。后来我们逐渐换成了ReLU、Batch Normalization之后,深度学习就变得可靠多了。如果我们能够让GANs变得像深度学习这样可靠的话,那我觉得现在使用GANs的场景,以后也还会继续用GANs,而且能够达到更好的效果。但是如果我们解决不了GANs的稳定性的问题的话,它在历史上留下的贡献就只是多展示了一种构建生成式模型的方法,然后最终还是会被其它形式的生成式模型取代。所以我现在的所有时间里大概有40%都是用在研究如何让GANs更稳定上的。
吴恩达 :不错。有很多人加入深度学习界已经10年了,比如你就是,而且现在还是先行者之一。也许现在加入GANs的研究的人假如能够搞定它的话,也会是未来的先行者。
Ian Goodfellow :对,很多人已经是GANs的早期先行者,当我们梳理历史上对GANs的发展做出贡献的人的时候,也不能漏了别的研究小组,比如Facebook、伯克利等等,他们也做出了很多贡献。
吴恩达 :除了你自己的研究之外,你也是「Deep Learning」这本书的作者之一,跟我讲讲吧。
Ian Goodfellow :这本书是我和Yoshua Bengio、Aaron Courville合著的,Aaron是我的博士生导师。这是关于现代深度学习的第一本教科书,英文版和中文版都很受欢迎,两种语言的加起来应该已经卖出7万本了。我也收到了很多学生的反馈,说看书以后有很大的收获。我们的书和其它的书有一点不一样,我们在开头专门有一章讲深度学习里需要用到的数学知识。我从你在斯坦福教授的课程里学感受到线性代数和概率论是非常重要的,就是,人们对机器学习算法很感兴趣,但是如果想做一个优秀的实践者的话,就需要先掌握算法背后的基础数学原理才行。所以我们就在一开始集中介绍所需的数学知识,这样就不用学会全部的线性代数知识,但是可以很快学会深度学习最常用的那些线性代数知识。
吴恩达 :所以对数学感到头痛的、有段时间没看过数学的人,就可以从数的开头学到这些背景知识,然后进入深度学习的部分。
Ian Goodfellow:里面有所有有必要知道的知识和公理,然后还是要很花一些功夫练习,才能把它们用好。对于真的不喜欢数学的人,应该还是会比较痛苦的。但是对于愿意学习、有信心掌握的人,所有需要用到的数学工具都在这里了。
吴恩达 :作为深度学习领域的长期研究者,你觉得这些年里人工智能和深度学习的发展趋势如何?
Ian Goodfellow :10年前的时候,整个研究大家庭里最大的问题是如何运用深度学习的方法解决人工智能相关的问题。那时候我们用厉害的工具解决简单的问题,比如如何从手工提取的特征中识别模式,人类设计师要做其中的很多工作,创建那些特征然后输入到电脑里。这样的方法对预测广告点击、各种基本科学分析之类的任务很好使,但是花了非常多的精力才能让它处理上百万像素的图像、音频波形之类的,因为这样的系统是完全从零开发出来的,差不多解决这些问题也就是5年前的事。现在我们遇到的问题是,面前的方法太多了,对于一个想要进入 AI 领域的人来说,最大的问题是选择到底从事哪个方向,是想要把强化学习提升到监督学习的水平还是想要把无监督学习提升到监督学习的水平,是想要保证机器学习算法能够保证公平、不要表现出人类想要避免的偏见,还是想要解决 AI 带来的社会问题来保证 AI 能够让每个人都受益而不是造成剥削和失业。现在真的是一个很精彩的时刻,有很多不同的事情可以做,我们既需要避开 AI 带来的问题,也要尽可能发挥 AI 的长处。
吴恩达 :现在有很多人想要加入到人工智能的潮流中来,你有什么建议给他们吗?
Ian Goodfellow :很多想要研究 AI 的人都觉得一个博士学位或者类似的证书是必需品,但是我觉得这已经不再是硬性要求了。我觉得写代码然后把它们放在github上面就是一种很好的吸引注意力的方式。如果你有一个有意思的项目,解决的问题刚好是和顶级研究者一样的问题,那么一旦他们看到了你的github项目,他们就会主动来找你,邀请你去工作。我去年在OpenAI招的、今年在谷歌招的人里面,很多都是因为我先在github上面看到了他们的开源项目,跟他们合作觉得很愉快,然后就把他们招进来了。在arXiv上面发论文也不错。很多时候你的想法可能还推敲得不够深入,没法形成能够被科学界接纳的新的学术成果,但是只是形成一个软件项目就会容易得多、快得多。
吴恩达 :所以就是从你的书中学习,再在编程中训练,最后发布在github甚至arXiv上。
Ian Goodfellow :我觉得如果是以看书的方式学习的话,同步开发一个项目真的很重要,找个自己感兴趣的地方试试学到的算法,假设你是一个想学深度学习的户外生物学家,你就可以自己开发一套识别鸟类的系统;或者如果你不知道如何在自己的生活中运用深度学习的话,你也可以做一个街景照片门牌号分类器,数据集都是现成的,非常好上手。这样就可以看书或者看视频课程的技术解析的过程中对所有的基础技能加以练习。
吴恩达 :在过去的两三年时间里,我也看到你做了很多对抗性样本方面的研究,也跟我们讲讲吧。
Ian Goodfellow :对抗性样本其实开创了一个新的研究领域,我把它称作“机器学习安全”领域。以前我们已经见识过了计算机安全问题,攻击者可以欺骗计算机,让它运行别的代码,这是应用层安全;也有的攻击是让计算机错误地识别网络信息的发送者,他们就可以伪装成别的人,这就是网络层安全。现在我们已经表明也可以让机器学习算法出现不正常的表现,即便运行算法的计算机执行的代码是正确的、而且也知道网络信息的发送者到底是谁。我觉得在新技术刚刚出现时就把安全作为它的一部分是很重要的,我们发现已经有一个完整的功能性系统以后再提高它的安全性特别困难。所以我特别支持现在就要重视和提高机器学习安全性的观点,这样才能确保这些算法一开始就是安全的,而不是几年以后再补丁摞补丁。
吴恩达 :非常感谢!虽然认识你这么多年了,你讲的这些事情听起来还是那么精彩,我都没想到。谢谢!
Ian Goodfellow :谢谢邀请我参加采访,我也聊得很开心!
已经有朋友把7集采访视频搬运到了国内,点击下方链接即可观看。
吴恩达采访 Geoffery Hinton: https://v.qq.com/x/page/u05350zlvrp.html
吴恩达采访 Ian Goodfellow: https://v.qq.com/x/page/k0535avfizp.html
吴恩达采访 Yoshua Bengio: https://v.qq.com/x/page/q0535m1ixns.html
吴恩达采访 Pieter Abbeel: https://v.qq.com/x/page/x0535oygmpo.html
吴恩达采访林元庆 : https://v.qq.com/x/page/a0535pwjpqw.html
吴恩达采访 Andrej Karpathy: https://v.qq.com/x/page/k0535dqg7ea.html
吴恩达采访 Ruslan Salakhutdinov: https://v.qq.com/x/page/o05356x2b24.html
via Deeplearning.ai,AI 科技评论听译