【更正】微软人工智能首席科学家邓力:深度学习十年简史和人工智能未来展望(33PDF下载)
1 新智元原创
整理:闻菲
【更正说明】 本文最初发布时内容有所遗漏,现经邓力博士审定后再次发出。此次更改的主要内容包括:更换文中提及的《财富》一文超链接;补充原文发布时遗漏的一张展示深度学习局限的图片(见�文注释);在提到深度学习从加拿大和美国进入中国时,补充了百度在语音方面的进展;更换了文末最后一张展示邓力博士最新思想和工作的图片。给读者带来不便,十分抱歉。特此声明。(2016.10.26)
【新智元导读】 微软人工智能首席科学家邓力18日在自动化学会与新智元携手举办的首届 AI WORLD 2016 世界人工智能大会 发表主旨演讲《深度学习十年简史和人工智能未来展望》。邓力博士回顾了他与 Hinton 的合作及其产业影响,重点讲述语音识别如何随深度学习发展进入商用阶段,还介绍了微软近两年的人工智能进展,并对深度学习技术、应用和产业进行展望。演讲最后,邓力分享了他最新的思想和工作――将符号式逻辑推理和数值张量式神经网络结合到一起,有望解决深度学习黑箱问题,常识嵌入与充实问题,以及逻辑推理规则的自动学习问题。本文后附新智元9月对邓力博士的专访。 【 回复“1024”下载 PPT 全文(PDF格式); 点击阅读原文观看视频回顾】
AI WORLD 2016 世界人工智能大会开场视频(完整版)
邓力: 感谢大家! 贵宾们好,朋友们好。 我今天首先要感谢组委会给我这个机会,在这里向大家介绍微软的一些深度学习和人工智能的研究,也感谢组委会专门给我这个题目,叫我讲一下十年深度学习的历史。正像你们刚才听到 Yoshua Bengio 教授讲的一样,微软在深度学习的开始阶段就做了很大的投入。今天我会向大家介绍这之后我们很多的进展,最后分享对未来的展望。
深度学习十年简史:深度信念网络(DBN)开启 DL 时代
组委会告诉我 ,今天的观众有相当多是从业界来的投资人士以及技术人士。所以我向大家推荐两礼拜前 《财富》杂志的一篇文章 ,讲了深度学习一部分的历史。趁此机会也向大家介绍这篇杂志文章里面给的深度学习的定义。从技术的角度、也从科学的角度,我想再补充一些材料,使得大家对深度学习跟人工智能有一些更深入的了解。
这些是《财富》杂志所讲的定义,这个定义基本是准确的。比如说人工智能,它含有一大串的技术,包括逻辑推理技术,包括机器学习技术,在机器学习的技术里又包括深度学习的技术。其中,主要的一块是机器学习。机器学习所解决的问题,是要用数据跟统计的方法或者神经网络的方法来解决现实生活中的任务(tasks)。在机器学习里面最新型和最重要的一块――深度学习,也包括一大串的技术加上应用。虽然在这篇文章里面只提到了语音应用和图像应用,实际上还有自然语言处理等其他一大串的应用。在这个演讲里面,我会着重把这些新的应用和新的技术向大家介绍一下。
刚才 《财富》杂志的文章 讲的深度学习还是从商业的方面来讲,大家能够看得懂。要是看Wikipedia,它讲的深度学习的定义比刚才的文章更深入一点。我现在向大家介绍一下 Wikipedia 的定义,深度学习有三个要点 (来源于我 2014 年写的一本书,今年五月份翻译成中文)。第一,这是一般的定义――多层次的非线性变换,不单单是神经网络,它包括各种各样的其他方法,深度学习的精髓是好几个不同层次的非线性变换。第二, 因为有好多层次,就衍生出来了一个非常重要的问题――怎么样来优化这个多层次的系统。在浅层学习的模型里面,这个优化问题不是那么严重,因为比较容易优化。但是一旦有深层之后,这个优化就成为一个非常难的问题。这也是在上世纪 80 年代、90 年代深度神经网络并没有能够产生影响的其中一个很大的原因。当时数据不够,计算能力也不够,而且当时算法也不够。差不多十年之前,端到端的优化学习问题开始得到了解决――并不是说理论上得到解决,我只是说在实际算法上得到了解决。 第三,这点更重要,尤其在语音识别和图像识别之外的、更重要的认知领域的应用。在这种更高层次的认知领域的应用情况下,因为深度学习有不同层次的表达,它就能够把抽象的概念进行层次化的表征。 在我下面讲的应用中,我想特别是把第三个要点向大家描述得更深刻一点。头两个特性一般是大家在目前深度学习上看得比较清楚的,而且文献讲得比较多。第三点的抽象性确实是深度学习最重要的精华。
关于深度学习十年的历史, 我从 《财富》杂志的文章 里面抽取出来一张表。理论上开创性的工作――刚才 王飞跃老师讲到神经网络可以追溯到好几十年前 。这里我只讲讲近代的历史。上世纪80到90年代第二次人工智能浪潮,主要也是由神经网络突破引起的,当时的突破主要是在概念上的突破,神经网络的一些算法(比如 BP 算法)成为非常主流的算法,一直延伸到现在。但是,工业应用上的大规模突破只是到最近――就像 Yoshua Bengio 教授讲的――五到六年之前才开始。
这是一篇对我来说非常重要的文章, 加拿大安大略省的 多伦多大学差不多20年前发表的文章提出“Wake Sleep”算法――怎么让神经网络做非监督的学习。 上世纪 90年代期间第二次神经网络热潮往下降,一直做不起来。大家往深层次的模式来想,那时候这种方法也没有成功,但是对我有非常大的启发。 我当时也在加拿大安大略省任教,做时程上的深层次的神经网络研究,在 1994 年同我的博士生一起做神经网络的研究,写了这篇文章。
我当时做语音识别做了相当长的时间,神经网络一直比不上统计概率的模型。我跟研究生写的这篇文章,对神经时间序列预测模型做了非常细致的数学分析,跟 Yoshua Bengio 一篇文章有点类似。当然,网络层次很深以后,学习的难度就变得非常大。当时用到语音识别上没成功。但是给我们很大的启发――到底要往哪个方向走?这是 20 年前的事情。在这篇文章之后,大家都认识到神经网络用到语音识别成功的机会不是很大,更重要的原因是当时统计的模型发展得非常快,另外还有 SVM 机器学习的模型在那时候实际应用的效果远远超过神经网络。所以那时神经网络就慢慢像刚才 Yoshua Bengio 教授讲那样削弱了。
之后不久我从大学跳到微软公司,当时我的一个团队做了深层的动态 Bayesian 网络,相对比较容易解释并嵌入语音生成的知识与其科学原理。 但是还有一大串的问题。这些十年前深度 Bayesian 网络的问题,现在已慢慢得到解决 (用神经网络帮助 variational inference)。
深层次模型最早的一个突破还得归功于 Geoffrey Hinton 的一篇文章 《A Fast Learning Algorithm for Deep Belief Nets》 ,这篇文章确实成为一个开启深度学习热潮的因素 。 现在大部分的深度学习模型是一层一层网络不断从下往上把原始数据变换成它的类别。这篇文章正好相反,不是往上,更注重从上到下生成数据。这有点像“做梦”,你做梦的时候可以产生一些想法,做的“梦”产生一些数据。你在醒的时候就可以把你所看到的真实的感知数据抽象出来、总结出来,成为你感知的对象。经过反复的上下信息传递的过程,就可以打造一种非常巧妙但并不直观的生成式模型,而且对这种模型来说,这篇文章介绍了一个巧妙的学习方法。我看到这个方法以后,就开始思考这和我以前做的也是生成式的深度 Bayesian 语音识别模型会有什么关系。当时没看很懂,想探索怎么把这种模型跟我们的深度 Bayesian 语音识别模型结合起来。所以,当时我就请 Hinton 到我们的西雅图共事一段时间。
与 Hinton 合著论文成为经典,推动语音识别产业成功
2009 年底搞了一个 NIPS 讲习会,将深度学习各种不同的方法在语音识别上的应用总结一下,那时候已经有初步的结果出来,但是结果不是特别好。当时所有的深度学习在语音识别上面都是聚集在非常小的数量上面――大概只有100万帧左右的的数据量,非常有限。
当时大规模的神经网络威力还没显示出来。这之后我们在微软花了大概一年多的时间,发明了一些很有效的方法,使得深度信念网络(DBN)、深度神经网络(DNN),加上隐马尔可夫模型(HMM),这三个不同的技术整合到一起就成为以上这组架构。把神经网络跟其他的机器学习、人工智能方法联合在一起,很快让深度神经网络在工业界上面的语音识别产生巨大的影响。 这有点像 AlphaGo,也有三种不同的方法联合在一起。 所以, 怎么样把不同的人工智能和机器学习方法同深度学习方法整合到一起是非常重要的 。
当时 Hinton 和我们在学术界(我所在的微软研究院,也算学术界工业界的一个混合单位)合写了一篇文章,三年多前发表的,成为深度学习在语音识别方面的经典工作。 大部分的内容和方法在这个文章当中写到的,现在工业界还一直在用。文章讲了深度神经网络对语音识别产生的影响,怎么把不同的机器学习方法,包括深度神经网络的方法整合起来,使得大规模的语音识别得到进展。
当我们微软公司把深度学习用到语音识别并取得大规模成功的时候,微软大老板 Rick Rashid 2012 年在天津举行的一次会议上当场演示,第一次向世界宣布深度神经网络是一个非常强大的技术。他用深度学习做语音识别演示,几乎没什么错误,因为他非常配合,帮我们采集了很多他自己的 speaker-dependent 的数据。大规模的场合演示语音识别和翻译几乎没任何错误。另外,用机器翻译的方法,把识别出的英文文字翻译成中文,再用语音合成的方法产生中文语音。他用英文讲,他的中文声音就出来了,而且中文合成的声音跟他自己的声色非常相像,当时产生很大的影响。
演示之后,《纽约时报》的记者 John Markoff 到微软采访了我,也采访了 Hinton,我们讲了一些我们合作的事情,在《纽约时报》报道。最重要的写的一条,我们不约而同跟这个记者说,这么好的一个技术能够在演示上这么成功,几乎没有任何专利的保护。记者就把它写到了报纸上,这个可能跟整个工业界对深度学习引起兴趣有很大关系。
我们也写了论文,2010 年到 2012年写了不少微软同多伦多大学合作的论文,之后 IBM、谷歌、科大讯飞、百度也用类似的方法。科大讯飞确实跟进我们做得比较早,我这里没时间展开讲太多。 识别自然语音的错误率在 1993 年几乎每个字都会错掉。 美国的 DARPA 第一次做这方面的研究时,数据没采集多,1993 年之后,DARPA 每次投资语音识别的研究基本有1/4左右的资源是用来采集有标注的数据的。所以之后语音的大数据有了。这也是为什么深度学习在语音识别上是第一个成功的例子。
感谢胡郁总裁寄给了我当时在科大(我的母校)访问的照片,那时候我在 2010年到 2012年之间接受侯建国校长的邀请访问了科大和科大讯飞、也多次到微软亚洲研究院、台湾中央研究院和中国其他地方,讲深度学习的方法并进行学术讨论。这三年内我到中国各地走了十多次,开始于科大。可以这么说,科大讯飞的深度学习技术确实在中国是非常早就已经开始应用,只稍稍滞后于微软,跟这些学术讨论有很大的关系。深度学习从加拿大和美国到中国有很有趣的历史,具体的过程刘庆峰总裁跟胡郁总裁他们有更多的材料。 近两年来在吴恩达的带领下百度语音的深度学习技术也有巨大的进展。【此处为新增内容】
2012年到 2014年,微软、谷歌出现一大串的产品,还有亚马逊的 Echo,以及讯飞和百度的产品,也包括 Dragon 和 Siri 和 XBOX 产品一整套。全部用深度学习的网络取代以前一大串浅层机器学习的语音识别技术。
这两年(2012-2014),微软花了很多的精力,特别是我们在美国的同事和北京研究院的同事合作,把在天津我们老板演示的用深度学习实现的演示完全产品化,大家用 Skype 就可以直接用不同语言做语音对话。两个月前,杨澜带了一个采访团队到我们公司来拍摄人工智能电影的时候,专门试了我们的 Skype Translator,是五个小时人工智能的纪录片的一部分。 她用唐诗来试我们的系统,结果很有意思,每个字都翻译得很对,但是整个句子翻起来诗意就没了。语音识别字对字词对词是好的,但是它不能够真正达到人的智慧,还没到有诗意的那个程度。
深度学习最近两年发展:语音图像识别和其他大数据应用全面进入商用阶段
下面再讲一下最近两年之内深度学习的进展,首先语音识别的错误率继续下降,包括讯飞、IBM、百度、谷歌, 包括我们的公司的工作 。最近几年的进展更使得去年图像识别的错误率降到低于人类的水平,这是微软亚洲研究院去年做的,今年国内的几个团队做的比这个错误率低的更多。还有看图说话也有很大的进展。
最近一两年的 AlphaGo――文章是在 2016 年发表,工作大部分是在 2015 年做的,最后产生最大的影响是在 AlphaGo 今年 3 月份打败世界围棋冠军,这里面很大的一个因素就是把神经网络 Deep Neural Nets 和增强学习结合起来,用来加速 Monte Carlo Tree Search ,三者结合得到非常显著的成果 。
人工智能对话机器人也取得成果。这一段话是我从 《财富》杂志文章 中截取出来的。现在很多公司都在发展客服机器人,而且还有很多其他的应用。这种应用在 20 年前年前大家已经开始做了。我在大学当教授的时候就有很多类似的项目。 AT&T当时帮助客户怎么付帐,那是唯一很成功的例子,其他的影响并不是很大。今年到去年差不多两年之内,大家看到 AlphaGo 的成功,而且看到深度学习在语音识别和图像识别上面的成功都感觉到时间已经到了,这个重要的应用时代已经到了。
大家看这篇 文章 可以看到更多的近年深度学习应用例子。这种应用在学术界跟企业界还不是讲得特别多,但是,微软领导在这篇 文章 中讲了一段话, 这段话确实包含了我们微软两年之内的大量工作 。我的一个团队做了相当多的工作。
还有一个很大的应用,Deep Learning 最近两三年内有很多公司――主要是我们公司和IBM――大家看 这篇文章 后就可以感觉到,深度学习现在从原来感知上面的人工智能 (语音识别和图像识别)已经大步进入到其他与大数据相连的真正商业应用的领域里面。
从研究的角度来讲,深度学习用于自然语言处理尤其是机器翻译在过去一两年之内得到特别飞速的进展(尽管 2012 年就已经开始出现深度学习用于机器翻译的学术论文)。我昨天早上刚从烟台“中国计算语言学大会”回来,机器翻译领域目前已经完全采用深度学习的方法,它的性能、精确度大大超过 20 多年来发展起来的基于统计的学习方法。IBM 20 多年前第一次把统计学习的方法用到机器翻译。当深度学习在语音识别成功之后, 2012 年左右,深度学习就开始用到机器翻译上面。现在整个机器翻译的领域已经完全转向深度学习,这一点在中国自然语言处理方面比美国更显著。深度学习在阅读理解、问答等等应用上的复杂性,要比其他那些应用到语音识别和机器翻译的深度学习方法大,主要因为模型不一样,所解决的问题也不一样。这是下一步深度学习要解决的大问题。
前两天烟台的“中国计算语言学大会”上有一大串的演讲,每个题目都是跟深度学习相关的:深度学习跟机器翻译、深度学习跟问答、深度学习跟语法分析、深度学习跟情感分析,等等。我对中国的人工智能的希望是非常之大的。现在有哪些新的技术?有序列到序列的学习、有注意力模型, 一个礼拜之前谷歌 DeepMind 在《Nature》上面发表了 DNC 方法,它有局限性,还是基于 Von Neumann 算存分离的架构 。 做研究的话可以往这边看。我下面会介绍更符合人脑认知和思维的 算存一体的 方法和思路。
深度学习未来展望:整合符号逻辑和深度学习,有望解决黑箱、常识嵌入,以及逻辑推理规则的自动学习问题
最后谈谈未来展望。关于应用,昨天的新智元百人会 AI 领袖闭门峰会听大家讲了很多,我补充一些研究和技术的内容。关于人工智能应用,在四天前 美国白宫出了个报告 ,在座的Thomas Dietterich 教授告诉我,他也参与了这个报告的一些写作。 美国白宫政府发出来这个报告, 做应用的一定要好好看一看,它的最终结论对投资界影响非常大,跟中国推广的人工智能方向是相符的。 Deep Learning 作为一个非常大的标题列出来。今天早上跟 Thomas Dietterich 教授谈了一下,他承认对于很多做传统的人工智能的专家来讲 Deep Learning 的巨大成功确实是一个 Surprise。
Automated Science。把所有的物理科学材料数据用机器看一遍,能不能得出牛顿定律?像以前伽利略用望远镜看到星星的运动,经过科学的研究,总结出来一些星球运行的定理,牛顿根据这些材料总结出牛顿定理。 这些能不能用人工智能做出来?这是很多人想的问题。金融方面,人工智能和深度学习最近刚火起来,在美国做金融的极高端的专家找过我,我不便讲太多,这个领域做金融的都在看。
从研究和技术方面来讲,为了让大家看到将来的趋势,或者将来有影响的研究和技术,我们要先看现在的深度学习和AI的方法有些什么样的局限性。 把局限性看懂以后,就可以知道用什么方法来克服它们。现在机器学习很大的一个局限性是,几乎所有成功的方法都需要有非常大量的DATA,这种数据一定要输入输出全部匹配好(至少在全序列的水平上); 不匹配好的话,目前没有任何方法能够做得非常成功。这是非监督学习, 没时间讲了。下面还有一大串的其他局限,比如 Black box, 现在有很多研究在破这个黑箱,走出现有神经网络的框架,要能够把以前大家所做的深度 Bayes 的方法加上一大串其他的方法整合到一起,就有望解决黑箱的问题。 虽然有的研究人员觉得黑箱问题不是那么重要,但我认为黑箱问题很重要。同样重要的一点:神经网络现在非常难把知识自动扩大,就像小孩长大,他的知识和推理的能力一步步扩大,但是现在的人工智能这个能力几乎还没有。 我跟很多研究人员交流,怎么能够把基于神经计算的深度学习跟符号逻辑连在一起,因为把逻辑关系搞清楚就能解释知识的应用和推理的过程。 这就是真正的理解。现在所有我看到的 深度学习做的所谓的阅读理解都不是我现在讲的这个意义上的真正的理解。
【此图片为新增内容】
下面用一张图解释最近的想法和工作,怎么样能够把基于符号的逻辑推理(上世纪70年代的人工智能主流方法)跟现在兴起的深度学习、自动学习能力非常强的深度神经网络结合到一起。 这是一个小例子。 现在这里有两个结构,下面一个是输入句子的句法树状结构。上面的树状结构是语义结构。用人工智能的传统方法来做,要写很多 rules,但是用神经网络方法来做就可以学习结构变换。用于统一两者的一个方法是建立一个等价关系(isomorphism)。树状图状结构都可以经过巧妙的编码进入到神经网络,学习完了之后反向回到新的树状图状结构,能够把衍生出的经过推理后的树状结构(或者图状结构)无失真地(基于巧妙的编码)解码还原出来。这个过程中的 符号式的 推理逻辑就可以自动等价与在神经网络上的实现。因为神经网络善长学习, 逻辑推理的规则就有望能够 通过等价关系自动学成。
【此图片已更改】
谢谢大家,我就讲到这里。
回复“1026”下载 PPT 全文(PDF格式)
在 9 月召开的中国人工智能大会(CCAI 2016)上,邓力博士接受新智元专访,谈了他对深度学习最新突破及近来开源趋势等问题的见解。邓力同意 Hinton 等学者的看法,认为十年�机器能够拥有常识,对研发通用人工智能(AGI)也表示乐观,相信在他的“有生之年”应该能够看见 AGI 实现。
当时,邓力博士特别提到了他对 AI WORLD 2016 世界人工智能大会的期望:更深入了解人工智能在全球尤其是在中国的发展,同时分享他对人工智能和深度学习更多的思考。
新智元专访:深度增强学习是了不起的进展,深度学习需要借鉴脑科学的知识
新智元:过去一年深度学习最大的突破是什么?
邓力: 深度增强学习是一个很了不起的进展。AlphaGo 影响很大,也让很多做深度学习的研究者意识到,深度学习应用不但可以在有大量直接标注的数据上成功(比如语音识别、图像识别),还可以在其他更多的方面成功。这个成功不像以前那样一定要把每项训练数据都做一一标记,因为增强学习大部分数据都不是直接标注,而是要等到最后结果得出来,再指导前面的机器学习过程。深度学习和增强学习的概念以前都有,但谷歌 DeepMind 将深度学习和增强学习结合在一起,提出了深度增强学习,并且给出了应用场景,做了很多好的工程工作,向大家展示了它能够解决以前深度学习解决不了的问题。就在前几周,新闻报道谷歌 DeepMind 采用深度增强学习的方法,让数据中心的能量消耗减少了 40%,这个影响是非常大的。省电不但有经济效益,对环境的好处也是巨大的。以前一般人想不到可以将增强学习用在这个上面,我看了这项应用的报道后深受启发。
新智元: LeCun 前不久表示,他非常看好对抗生成网络模型 。
邓力: 对抗生成网络是很好的方法,它有助于无监督学习,如何把数据输入输出的关系弄清楚。
新智元:您最近主要在做无监督学习?
邓力: 思考了这方面的很多问题。一是无监督学习不需要使用标注数据,二来也是更重要的一点,从思想模型上讲,无监督学习更像人脑的学习。当然,直接的效应还是标注量――大 5 倍、10 倍可以,但大 100 倍、1000 倍、1 万倍呢?现在不少人在做深度无监督学习,我也在这方面提出一些高层的解决方案。例如看图说话,给定一幅图像,让机器用自然语言句子描述内容。微软前年还专门标注了好几十万个这样的数据给大家,整个深度学习领域的研究员都能应用,影响很大。但不可能标几千万甚至几亿的这种图像,尽管大家都知道,这会进一步提高看图说话的效果。其实我和团队之所以要研究无监督学习,更重要的一点是, 我们目前的深度学习方法离真正的人脑学习差得太远了 。深度学习需要借鉴脑科学的知识,虽然一两年内暂时还用不上,但我相信不远的将来,三到五年之内,大家都肯定会往这方面思考 。 我们现在也在往这方面想。我昨天讲的深度学习,有一部分也是受脑科学的影响。只是我们更重视计算――脑科学计算不了也没实用价值。但是,人工智能和脑科学将来都会慢慢结合。
新智元:Hinton 在之前接受采访时表示,他认为十年内机器能够拥有常识,您怎么看?
邓力: 我同意他的看法。我们要是能够把人脑关于常识的机制加到算法里面,人工智能会有新的大进展。关于常识的知识库会越来越大,方法也会越来越强。计算能力、计算机硬件、数据……这些都在不断发展扩大。到了一定阶段,我想十年之内,差不多就会得到这样一个好的解决方案吧。当然,到时候肯定不会像现在这样采用监督学习的方式,而是整合了多种方法,监督学习、无监督学习、增强学习……而且现在发展速度这么快,工业界和学术界都大力投入人工智能和深度学习。十年算蛮长时间了。这么长时间,应该可以实现。
至于通用人工智能,应该会长一点,在十年以外。常识只是一部分,而通用人工智能,就是要用同一个人工智能解决很多的问题,这就需要在常识之外,还有很多其他的人类认知能力。把这些认知能力都考虑到一起,我想用的时间……至少在十年以外吧。但解决的机会是会有的,有生之年我也应该能看到,我还是比较乐观的。
新智元:深度学习是最终的答案吗?
邓力: 最终的答案应该有很多方法整合在一起,深度学习是其中主要的一个。不过,深度学习本身范围也很广。 什么是深度学习呢?有些人说深度学习就是神经网络,我认为这不全面。 深度学习的基本概念,一是多层次的,多层次不一定要神经网络方法才能实现,可以用统计方法,也可以使用贝叶斯的方法。深度学习的另一个特点是端到端的学习,也不必局限于backprop。总之,深度学习不一定限定在神经网络,还要把常识――随便举个例子――结合进来,我是这样认为的。
去年,我们团队在 NIPS 发表了一篇论文探讨了这样的问题。你知道,现在使用神经网络,大部分都很难解释;我们的团队就采用概率模型的方法,把比较浅层的概率推理方法加层,每一步的方法从果推到因,把每个步骤都当做一个迭代的过程,每个计算的步骤作为神经网络的一个层次,然后把这个过程一层层循环上去,最后就形成了一个神经网络,再来做反向传播。学习完了以后,由于这个网络也很深层,预测的结果就很准,但同时我们没有把原来贝叶斯基本的架构破坏掉,所以用原先的模型就可以解释最终的结果,这就是把神经网络和其他方法结合起来的一个例子。
新智元:怎么看开源?
邓力: 开源是好事。开源的结果是把整个业界的水平提高,给大家很多很多的选择。我很高兴见到很多公司开源,我认为开源的力度越大越好。举一个例子,以前实习生来了,有一个很长适应的时期,才能把公司内部的应用软件搞懂。开源以后,他们在入职之前就已经对相关的技术和产品比较熟悉了,来了之后马上就可以上手。微软已经开源了CNTK,今后也应该会开源更多。
新智元:微软研究院在深度学习上的特点是什么?
邓力: 微软的优势是深度学习开始比较早,储备的人才和经验很多。不过前几年管理相对松散,做深度学习的人分散在很多不同的地方,但彼此之间都有合作。在深度学习和人工智能方面,我们会投资更多。
新智元:跟 Hinton 合作有什么印象比较深的地方吗?
邓力: 当时我们一起做语音识别,神经网络和贝叶斯算法做了很多比较。发现贝叶斯算法不如神经网络那么有效,主要是因为神经网络能够利用大型并标准的矩阵计算。当时我们试了各种各样的方法,在2009年到2012年期间,Hinton 给了我很多实际的建议,比如早在2009年他就一直跟我说,“你一定要用好的 GPU”,用什么样的 GPU 我还是听他的,这个对我们影响很大。
新智元:神经网络、层次化模型等思路在语音识别发展的历史上早已被提出并无数次验证,但都没有成功。回顾深度学习成功前的十年,那时能够持续不断地在“非主流”的方向上尝试、改进、探索,是一件非常不易的事情,您是如何坚持过来的?
邓力: 我在上世纪90年代也做神经网络,但没有成功――不过那时候大家都没有成功(笑)。然后改做贝叶斯网络模型和方法,在为语音生成(编注:语音生成指的是统计方法生成,不同于语音合成)建模的深度贝叶斯网络做了很长时间。同样,当时深度贝叶斯网络学习的方法不成熟, 但现在两三年内有了很多进展。这些新进展把统计、数学、概率和神经网络的方法联系在一起。将来要解决更像人脑的问题,单单依靠数据就不够了。 现在大家开始注重非监督深度学习,过去积累的研究经验和有计算价值的语音生成知识和模型也可以派上用场。
新智元:您去年都还在发论文,一直都工作在第一线。如何保持这样长时间的高水平高产出?
邓力: 这是责任,也是个人的兴趣。公司给了我很多资源,现在团队有了这么多人,人多了自然就好做事了。
新智元:10月份,中国自动化学会和新智元联合主办的 AI WORLD 2016 世界人工智能大会就要召开了。您对大会有什么期望?
邓力: 我希望能在这个会议上学到更多的东西,更深入了解人工智能在全球的发展, 特别在中国的发展,同时也分享我对人工智能和深度学习更多的思考。
-----------------------
【更正说明】 本文最初发布时内容有所遗漏,现经邓力博士审定后再次发出。 此次更改的主要内容包括 :更换文中提及的《财富》一文超链接;补充原文发布时遗漏的一张展示深度学习局限的图片(见�文注释);在提到深度学习从加拿大进入美国再进入中国时,补充了百度在语音方面的进展;更换了文末最后一张展示邓力博士最新思想和工作的图片。给读者带来不便,十分抱歉。特此声明。(2016.10.26)
点击阅读原文,观看2016世界人工智能大会主论坛全程回顾视频。