人工智能大拿解答机器学习30个问答
这个Quora 机器学习问答系列将会邀请众多这个领域的大神来答疑解惑。 这次参加的是 Yoshua Bengio,计算机科学家,毕业于麦吉尔大学,在MIT和AT&T贝尔实验室做过博士后研究员,自1993年之后就是蒙特利尔大学任教,与 Yann LeCun、 Geoffrey Hinton并称为“深度学习三巨头”,也是神经网络复兴的主要的三个发起人之一,在预训练问题、为自动编码器降噪等自动编码器的结构问题和生成式模型等等领域做出重大贡献。他早先的一篇关于语言概率模型的论文开创了神经网络做语言模型的先河,启发了一系列关于 NLP 的文章,进而在工业界产生重大影响。此外,他的小组开发了 Theano 平台。 以下是重点30个问题,(去掉一些太专业的问题): Q1:你怎么看强化学习?它是像Yann LeCun说的那样,是画龙点睛的一笔吗?如果我们只使用强化信号来引导学习,那么我同意Yann LeCun的说法,它是画龙点睛的最后一笔。糟糕的是:当使用的全局强化信号并不是对于特征的已知可微函数时(这种事经常发生),扩大能根据这个信号而训练的隐藏单元的数量(或是行动维度)就会有严重的问题。行动的样例数量、随机样本数量、或是尝试次数,随着单元数量的增加,可能不得不至少以线性的速度增长,才能在质量的信度分配方面达到和反向传播技术差不多的水平。如果行动空间很大,这会是一个很麻烦的问题。然而,就像在Yann提到这件事时说的那样,我们在做强化学习的时候也应该做非监督式学习。那么它就会变得更具可信度,能够在大规模的环境下发挥作用。 Q2:理解大脑对于理解深度学习来说有多重要?反过来呢?就像许多早期从事神经网络研究的人(包括我的同事Geoff Hinton和Yann LeCun)一样,我相信,当我们思考我们对于大脑已经知道了什么的时候,我们会有不错的机会来从中学习一些对于搭建AI来说有用的东西,并且这一点随着神经科学家们收集了越来越多的大脑 数据 而变得越来越确定。这个信念与相反的想法也是有联系的——为了真正理解为何大脑让我们拥有智能,我们需要对于大脑中发生的事构建一个“机器的学习”的解释,也就是说,搭建一个计算的、数学的模型来解释我们的大脑是怎样学习如此复杂的东西、又怎样表现出如此成功的信度分配的。为了验证这个解释,我们应该能够运行一种机器学习算法,它拥有从神经生物学中提取出来的基本原则,但它没有必要理解这些原则(但是可能有必要将这些原则在它的“大脑”中实现,或是为它提供一些我们与生俱来的知识)。就我所知的而言,我们对于大脑怎样做一些反向传播技术做得很好的事情还没有一个可信的机器学习解释——也就是说,还没有明白,脑内神经元突触应该怎样产生变化,才能让作为一个整体的大脑对于世界有更好的理解、做出更好的行为。这是这些日子经常在我脑海中徘徊不去的话题之一。 Q3:有没有深度学习永远不能学会的东西?这取决于你说的深度学习指什么。如果你指的是现在我们知道的算法,那么答案很有可能是“是的”。但是,毫无疑问,随着这个领域的研究不断探索,深度学习还在继续演化,很明显深度学习的应用范围有不断扩大的趋势。神经网络曾经在模式识别问题上非常成功,音素识别和物体识别都是很好的例子。然而,我们可以看到越来越多神经网络方面的工作正在靠近传统的AI领域,比如推理、知识表征、以及操作符号数据。我相信,这些近期的工作只不过是冰山一角,但是当然我的手里并没有水晶球来做预言。如果我们未来对于深度学习的定义中,包括了以受神经启发的算法来复制所有人类认知能力的能力,那么“这个领域中没有深度学习学不会的事情”的假设就是相当合理的。不过,到时候,可能会有一些人类永远不能学会的任务;对于这些任务,很容易得出结论:没有机器能完美地完成这些任务,因为用来训练的样本数量太局限了。 Q4:你对于Kaggle和其他机器学习竞赛有什么看法?就像许多其他东西一样,适量的机器学习竞赛是很好的。激励一些愿意与人竞争的学生(特别是新学生)是一件很棒的事。这让他们真正地学习如何操作机器学习,只读论文你是学不到这些的。基准测试也扮演着重要的角色,让我们的注意力能集中到超越此前最新技术的全新方法上。但是它们不应该被用来作为抛弃那些败于基准测试的研究的理由。如果有什么东西在一个基准测试上表现很好,这可能意味着我们应该向它投以一些关注,但是相反的推论却并不正确。你可能有一个伟大的想法,但是你做出的方法现在表现得却不是很好,因为有一个讨厌的细节问题压抑了它的表现——而这可能在下一年就能被修正过来。这些日子,机器学习评论者们对于实验结果的比较被赋予了过多的重要性。我相信这是某种懒惰。查阅比较结果的表格的确比在实际上尝试理解论文中的思想要简单得多,局限在它给出的可能性里也的确更为轻松。 Q5:深度学习研究将去往何方?研究从定义上来说就是在不断探索的,这意味着(a)我们不知道什么能起效,以及(b)我们需要探索许多途径,我们需要整个科学社区在研究方向上有很大的差异性。所以我只能告诉你我目前的直觉,我在哪些地方看到吸引了我直觉的重要挑战和机遇。这里是其中的一些:
对于AI,我们可能仍然需要再获得许多知识,更好地理解大脑并尝试找到大脑运作的机器学习解释。 最大似然可以加以改进,当在复杂的高维度领域中学习时(非监督式学习和结构化输出情景中兴起的情况)它不一定是最佳的目标。 基于深度学习的AI(不只是消费者产品)将会很大地受益于计算力的大幅提高,这可能意味着出现专门的硬件;这是因为,AI需要大量关于世界的知识(然后对它们进行推理),这就需要用非常大量的数据来训练大型模型,这一切都需要比我们现在使用的高得多的计算力。 Q6:一个人怎样才能开始机器学习?/对于一个熟悉机器学习基本概念的人来说,开始接触深度学习时有什么不错的资源?首先你需要在数学和计算机科学方面有适当的基础。深度学习方面,你可以看看MIT出版社的《深度学习》(现在可以在线阅读,最终MIT出版社会将它印刷成册)第1部分,重温一下数学和计算机科学的知识、或是看一下数学和计算机科学中哪些领域与深度学习最有关系。然后你需要了解一些机器学习方面的知识(有一些不错的书,比如Chris Bishop写的和Kevin Murphy写的,视频的话比如有吴恩达的coursera课程和Hugo Larochelle的神经网络授课视频,你也可以从《深度学习》这本书的第5章中获得许多基本知识的总结)。然后你需要开始练习,也就是说,亲手编写一些学习算法、用数据来训练它们——比如说,尝试参加一些Kaggle竞赛。试着成为优化超参数和选择恰当模型方面的专家吧。同时,继续保持阅读。如果你对于深度学习感兴趣,我的书《深度学习》中第3章将会为你使用大多数常见的算法打下基础。到那时,你应该有了足够的背景知识、能够以稳定的频率来阅读勾起你兴趣的论文了。 Q7:你怎么看OpenAI?我觉得在我所在的社区中有另一个玩家加入是一件很棒的事,它在市场和研究人员的文化两方面的影响力进一步推动着业界实验室转向重视长远的目标,让基础研究不只由学界来做。我强烈地相信,如果能以几十年的度量来考虑,如果我们对于短期目标没有那么关注、没有那么贪婪(试图立刻利用起来赚钱),我们本来是可以在探索AI的道路上走到更远的地方的。 Q8:目前对于深度学习的炒作是否言过其实?如果它是炒作,它就会夸大实际情况。这种夸张是存在,我见到过。当有人认为人工智能的研究比实际情况更加接近人类表现时,这就是炒作,而这种想法通常是依据人们在电影或科幻作品中见到的AI场景而得出的心理印象。 在我的生涯中,我经常会觉得,通常情况下,人类很贪婪。我们在短期目标中会花费很多精力,如果我们在长期目标中持续这种状态的话,我们会收获更多。而这意味着要接受很多事实:在AI领域还有很多根本性挑战;我们不知道还要用多久才能解决这些挑战(我们也有可能永远无法成功解决)。我感觉人类有一种存在于本性中的倾向:更倾向于“利用”知识,而非“探索”收集更多的知识。这种倾向对于我们的祖先来说是很有意义的,因为他们每天都面临危险。于是成功存活下来就变成了一种短期顾虑。公司想要快速赚钱。投资人对它也有需求。政府官员想要在其四年任期结束之前加快经济发展,而且他们也受到公司和非常富有的人的影响而被败坏,进而他们根本不在乎这对于人们的长期回报。学术界应该担负起担忧长远未来的责任,但是他们经常被卷入到政府和公司的短期想法中(他们为研究提供资金),或者陷入——“出版或死亡”和“短期增加研究强度以提高基准测试的表现”——的逻辑中而无法自拔。 这即是说,没有被夸大的是:深度学习已经有很好的表现(经过适当的设计并得到所需的数据后),而且也有可能被转成重大经济影响和增长。我们可能在某些非常有限的领域中找到了接近人类表现的方式,或者说,在之前技术基础上提升很多以至于有非常明显的经济价值。但是这距离人类级别的智能还非常遥远。 Q9:在深度学习方面有哪些开放的研究领域?每个研究人员对此都有看法,这很好。这里是我的想法:
Q10:深度学习能像在视觉和语音领域中那样在自然语言处理领域中取得成功吗?我当然相信会这样!最近几年的进步暗示了进步幅度会更快。例如在神经机器翻译中的相关工作,这方面我知道的比较清楚。我认为我们在来年会看到更多,而深度学习也在逐步朝着自然语言理解中存在的诸多根本性挑战方向发展。 Q11:深度学习与机器学习有怎样的不同?深度学习是机器学习的一部分。在机器学习中有很多概念和想法,而深度学习是从这个更大集合中抽离出的一部分。很多大学曾有一段时间不再教学深度学习,但是现在,在某些地方,受到关于深度学习的炒作影响后,这种局势可能会逆转,而这并不好:学生继续学习经过几十年机器学习研究而得出的不同想法和概念是很重要的,这提供了更加广阔的思路,也为新发现打开大门。 Q12:对于正在进入机器学习领域的年轻研究人员,你有什么建议?确定你在数学和计算机方面经过了很强的训练(包括,实践部分,如编程)。读书,读很多文献,但这还不够:你需要发展你的直观理解,通过以下方式:(1)自己编写很多学习算法,如尝试重现文献中的方法;(2)例如参加比赛或者在重现文献中方法后进一步改善结果,从而学会去调试超参数(hyper-parameters)和探索(框架、目的函数等等)变异性。接着找人一起做头脑风暴,在探索和测试新创意时分享工作负担。和已有的小组一起工作是一种理想方式,或者招募自己的学生与你一起工作,如果你是一个教职人员的话。 Q13:AI对人类有生存威胁吗?我们未来某天可能实现的这类能够达到甚至超过人类表现的AI有很多不确定性。即使我站在乐观主义的一方(因为这种不确定性),我们不能否认存在这种可能:我们不想发生的事情发生了。这就是我签下了未来生活公开信以开发一个稳定而有益的AI的原因。 然而,请记住这种潜在威胁现在还离我们很远。媒体总喜欢夸大其词来吸引注意力。这会妨碍AI研究。相反的,我们应该鼓励相应领域的研究来更好的理解这些问题,进而如果某天出现一些事情要具体处理时,我们也能更好的准备并开发对人类来说更安全的AI。 谈到这里,我相信将媒体的注意力从AI带来的长远角度科幻性质的恐惧转移到短期更具体的政治经济问题上是很重要的。但我们应该提前考虑这些问题,而不是等到人类受到伤害(例如,失去工作)虽然会有少数幸运的人会变得超级富有而且有很大的权力。我们整体需要对如何利用AI带来的进步做出英明抉择,为全体利益着想而非少数。为了适应科学技术带给我们愈来愈强大的力量,丛林法则是不适用的:我们需要在个体和整体上都有英明的远见,这不仅是为了我们,也为了我们的后代。 Q14:你对只用一个学习算法解决问题是怎么看的?这是一个很有意思的想法,而且有点像皮质的功能,因为如果有必要的话,同样的皮质部分可以做其他部分的工作(即使每个区域由于初期的结构部署而被安排好做特定工作)。这很有意思,因为如果存在一个核心学习算法(虽然可能涉及到一些概念)完成多种任务的话,那么这种算法很可能很强大而且很实用,更不用提还能提供有用的科学观点。我认为,它足以有趣以至于不找寻它的人是不正常的,万一它存在呢。然而,大脑除了皮质之外,还存在着其他部分,例如海马区,有可能根据不同的算法学习并与皮质交流,近期记忆网络和神经图灵机的相关工作也暗示我们可以受益于多种不同类型的组件。另外,大脑也很有可能结合了非监督学习和强化学习(后者有研究透彻的生物学证据)。 Q15:在学术界做深度学习研究与在产业界相比有哪些好处和挑战?(为什么你是仍坚守在学术领域的为数不多的深度学习研究人员之一?)据我所知,好处:
挑战:
然而,我必须承认我在后两件事情上做的很好,这要感谢我当前接收到的(经常从大学那里)慷慨的资金和赞助。我很庆幸我的大学高度珍视我的存在而且只限定我每年一次(除了学术休假)教学研究生课程,在过去的15年中。当然这些只是我幸运地得到了这样的环境。 Q16:你曾说过当前机器学习算法的主要限制是它们学习需要太多的数据。你能详细说明这一点吗?在孩子的前两年生活中(甚至在学会语言之前),他们本质上是通过看没有被标记的数据学习。孩子们在童年看到的自然语言比现在训练得出的最好的语音识别器和机器翻译系统所需的文本数量要少得多。这种差距是指数级别的。为什么?人们似乎能够更好的利用他们能够得到的较少的数据集,而且我相信这是因为他们自己对周围的世界建立了一个能够捕捉因果关系的模型。这让我们能够预测在某些假定条件下什么会发生,即使这些条件与我们以往经历过的条件有明显的不同。我从来没有真实经历过车祸(例如),但是我的大脑可以充分的模拟它(并预见结果),进而我可以自动的做出计划来规避这样的不幸。所以未来还有很多事情需要我们发掘。 Q17:为什么非监督学习很重要?深度学习在其中起什么作用?深度学习其实是关于学习表征方式,这意味着学习有益于捕捉我们所关注的统计相关性的中间概念,特征或隐性变量。这些相关性来自于从输入变量到输出变量的监督学习过程,或在变量的任何子集之间的非监督学习过程。通常来说,监督学习用于教电脑学会对解决特定任务很重要的中间概念(例如类别)。然而,我们看到监督式深层网络在它们的网络层中可以发掘出有意义的中间概念。非监督学习很相似,不同在于我们让模型捕捉了所有变量之间可能的相关性,不区别输入和输出。用监督学习来完成AI可能需要让电脑从所有与这些概念有关的数据集中学会所有对我们很重要的概念。这不是人类的学习方式:是的,由于语言的存在,我们得到了一些阐明新概念的示例,但是我们观察到的很多东西并没有明确的标记,至少一开始是这样的。孩子们并没有让大人告诉他们每幅图的每个像素是什么,或者每幅图中的物体是什么,什么是语法结果,每句话中的每个单词的确切意思是什么。我们从简单的观察中提取出大部分信息(可能通过“动作—感知”循环),而这就是非监督学习的基本原理。我们希望深度非监督学习将能够发现(可能需要很少的标记数据的帮助)所有的概念和事情发生的起因(一些被直接标记好,一些没有标记),进而解释我们看到的现象。所以我相信这个方向上的进步对实现AI有本质性推动作用。而且我们都是这么想的:) 如果你仔细想想,科学家正在做非监督学习:观察世界,想出解释某种现象的模型,收集更多观察数据(虽然是有目的的)来测试它们,接着不断的改进这种解释世界运行原理的模型。然而我们确实从教育中得到了提升。 Q18:你认为,深度学习未被研究透彻的众多部分中,哪个是最令人困惑的?这里是一个研究得很不充分且真的令我疑惑不解的一个例子: 我们可以用一个高效在线算法(不需要储存我们一生中所有的心理状态然后倒序播放)在时间中(对于训练递归网络)达到像反向传播一样,或者更好的效果吗?大脑显然做到了这一点,但我们没有任何线索。 Q19:你认为传统的统计学习是否会在不久的将来再次战胜深度学习(或者任何基于神经网络的方法)?神经网络是统计学习方法。科学不是战斗,而是协作。我们都是在彼此的思想上建立自己的思想。科学是一种爱的行动,不是战争的行动。一种对于周围的世界的美丽产生的爱,一种愿意分享和合作的爱。从情感上来说,这使科学成为一种让人感到高度满足的活动。 Q20:你对于进入机器学习领域的年轻研究者们有什么建议?确认你在数学和计算机科学领域(包括实际的部分,也就是编程)有扎实的背景。读书和(大量的)论文,但这还不够:你需要培养出你的直觉,这可以通过(a)亲手编写相当多的学习算法,比如重现论文中的结果,以及(b)学习怎样微调超参数以及怎样探索(架构、对象函数等方面的)变种。然后,找到合作者,你可以与他们一起对想法进行头脑风暴,并与他们一起分担探索和测试新想法的工作量。当然与一个已形成的团队一起工作非常理想,或者如果你是一位大学教师的话,你可以招募你自己的学生,和他们一起进行工作。 Q21:一个人要怎么才能想出新的深度学习架构?只是通过试错吗?是,也不是。不是,因为对于一个单纯的随机搜索来说,能起作用的算法的空间太大了(均匀随机的话,找到好东西的几率非常小)。是,因为这会是一种高度引导式的随机探索,就像任何其他科学努力一样。但请尽量弄清到底发生了什么,这无疑会给你带来更多的好处。这不仅仅是与在算法的空间中进行搜索有关,它也与在这一旅途上理解更多普适的概念有关。这就是随机探索中“引导”的那一部分。它不同于只是想胜过基准测试,而且从长远来看,它对其他人来说会更有用。提出理论来解释你所看到的现象,然后通过建立一个专门为了打败这个理论而设计的实验来进行测试。不断重复这个过程。这就是科学的历久弥坚的方法。 Q22:在研究预料之外的实验结果时,比如你觉得某个想法应该会有效、结果在实验里却没有效果,你会用到什么技术?好吧,通常来说,这要么是一个bug,要么就是更有趣的情况:它证明了你脑海中的模型应该改一改了!你需要变得善于寻找bug(这需要练习),在机器学习中这并不是一件容易的事,因为许多bug仍然会允许及其继续学习,只不过效果不那么好了。但无论如何,当实验结果与你的期望不符时,不要无视它!这是一个你应该为之热切期盼的机会;-) 有时候你脑海中的模型是错误的,但是别人可能不觉得你的结果让他们惊讶,于是你将需要通过交流(可能是写一篇论文,或者是与其他研究人员探讨)来找出错误。 我最好的调试工具是我脑海中的模拟系统。让模型在你的脑海中运转,越详细越好,然后试着想象有什么事可能发生。 Q23:深度学习之后机器学习中的“下一个”大事会是什么?第一,我根本没有水晶球。第二,据我所知,当我们实现了人类级别的AI后,深度学习的使命就结束了,而我很难预见这之后会发生什么。深度学习为神经网络带来了一些想法。随着时间推移,其他概念也会加入其中,从而一点点向着实现AI方向努力。我真的认为有些想法会历久弥新。这像是在问“我们研究了过拟合、欠拟合和容量之后,机器学习的下一个大事件是什么?”(过拟合、欠拟合和容量在80年代后期开始盛行。)这些想法永远不会过时,因为它们非常有用。显然这类想法,如学习复合函数(深度)的提出(和重要性),会历久弥新。但单凭其自身无法保证这一点。我们还有很多工作要完成。 Q24:你对概率图模型是怎么看的?概率图模型的相关研究给我(和很多其他的深度学习研究人员)提供了一些伟大的洞见。它们是很多非监督学习算法的基础,也帮助人们理解了那些看起来不像是概率问题的模型(如自动编码器)。 Q25:在自然语言方面,未来的深度学习会有怎样的发展。我相信,对于深度学习,自然语言处理是最让人兴奋的研究领域之一。这是一个长期存在的挑战,而深度学习正试图解决它们,而且我相信我们这套正确的工具能够取得巨大进步。 Q26:除了重构输入数据(例如像是自编码器这样的深度神经网络,其工作原理即是重构输入数据),还有其它什么任务能够证明对深度网络中的无监督学习有用?许多! 就我们目前知道的就有很多,例如:
并且我确定我忘记了一些,并且会出现越来越多的基于无监督式学习的模型。 Q27:你认为利用AI技术能够捕捉到人类失去理性的行为和思考过程吗(例如 信任)?当然。你所谓的非理性即是指“错的”。可能不能充分适用于这种情况。信任思维是非常理性的。理性于我而言就是:“利用可用的知识,做出正确的决定。”信任,以及其它许多的人类举动都是非常理性的。如果我们不相信任何人,我们哪里也去不了。最重要的是做对的事情。生物、文化的发展以及我们自己的经历已经在我们心中对世界建立了一个模型。但是我们没有意识到它的大部分。理性对于我来说,不是可以用几句话或者几个词就能够解释的。它对于我来说就是意味着最优的决策。 Q28:在机器学习中解释一个模型有多重要?这个问题就像是在问“一个人能够完全解释他的每个想法有多重要?” 那当然很好啦,但是对于我们发现人类(或机器)是否一个好伙伴来说,不一定必要的。可解释性已经被大肆地热议过了。在使用一个模型前我们真正需要的是对一个训练模型泛化能力的可靠保证。(这也正是围绕一个训练模型不断计算其测试的错误率以及不断评估其不确定性要达到的目标)。那即是指:我们应该尽我们所能来理解机器学习模型的内部到底是如何工作的,因为只有这样,才能够帮助我们排除模型中出现的故障,并且了解到模型的局限性,进而建立更好的模型。 Q29:你认为有可能让算法从通常被当做是噪音的数据中提取出有用的信息吗?只有当其中存在一些潜在统计结构时!(即使我们没有看到它) 我确定,听见我说话的猫只是认为我在发出一些有趣的噪音(例如,对于猫来说,当声音变得响亮或声调高时,这些噪音才包含信息)。当我听到一个完全不同的专业人士用各种专业词汇谈论某个话题时,这也很快也会变成噪音。只有当我们构建了合适的模型时,才能把噪音变得有规律,例如,用与众不同的方式来预测,会承载有用信息。 Q30:我们如何让深度学习在计算能力较低的设备(如手机)上运行?开发专业硬件,设计相应的学习算法。在我的实验室中,我们研究在很低的分辨率下且不需要使用任何乘法运算的神经网络的实现方法。这在很大程度上会减少计算消耗。
2016-5-9 14:58
|
来自: 大数据
|