(原标题:谁写出了AI领域最具影响力的论文?这两位德国学者打破了Bengio和LeCun的年度被引记录)
作为「 LSTM 之父」的 JürgenSchmidhuber 虽然没有获得图灵奖(也因乖张的行为不受待见),但他在领域的贡献仍然获得了整个社区的「被动认可」。
最近几天,有人通过 GoogleScholar 的统计发现: Hochreiter 和 Schmidhuber1997 年发表的 LSTM 论文成为了 20 世纪被引最高的研究论文。
截至今日,这篇论文的被引用量已经达到 26166 ,超过了 Hinton1985 年发表的反向传播相关论文(《 Learninginternal representations by error propagation 》)。
出人预料的排名变化是在最近发生的, LSTM 论文在 2019 年的年度引用量高达 9752 次,高于此前 Bengio 、 LeCun 等人年度被引最高的 CNN 相关论文(《 Gradient-basedlearning applied to document recognition 》)。
20 世纪 DL 最高被引论文易主
其实在此之前, 20 世纪领域被引量最高的论文一直是图灵奖得主 GeoffreyHinton 的「反向传播」相关论文,其累计引用量达到了 64757 。但值得注意的是,该引用量是标了星号的(如下图所示)。
该星号表示,这个数字代表的不是单篇论文引用量,而是几篇论文的综合引用量。包括:
-
Learninginternal representations by error propagation. DE Rumelhart, GEHinton, RJ Williams, California Univ San Diego La Jolla, Inst forCognitive Science, 1985 ( 被引 25k)
-
Paralleldistributed processing. JL McClelland, DE Rumelhart, PDP ResearchGroup, MIT press, 1987 ( 被引 24k)
-
Learningrepresentations by back-propagating errors. DE Rumelhart, GE Hinton,RJ Williams, Nature 323 (6088), 533-536, 1986 被引 (20k)
-
……
因此,上图中 Hinton 被引最高的论文《 Learninginternal representations by error propagation 》的单篇引用量应该为 25398 ,略低于 Schmidhuber 的上述论文。
除此之前, Schmidhuber 的上述论文在年度引用量上也拔得头筹( 9752 ),超过了上述「反向传播」三篇论文的总和( 3574+461+3181 ),也高于之前年度被引最高的 CNN 相关论文( 6301 )。
SchmiduberLSTM 论文年度被引用量。
Bengio 、 Lecun 等人 CNN 相关论文年度被引用量。
经典论文―― LSTM
LSTM 的全称是( Long-ShortTerm Memory ),是具有长期记忆能力的一种 (RecurrentNeural Network) ,其网络结构含有一个或多个具有遗忘和记忆功能的单元。由于独特的设计结构, LSTM 适合于处理和预测时间序列中间隔和延迟非常长的重要事件。
该论文首次发表于 1997 年。由德国慕尼黑工业大学的计算机科学家与 JürgenSchmidhuber (现任瑞士 DalleMolle 研究所的联合主任)共同完成。
论文链接: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.676.4320&rep=rep1&type=pdf
在提出时, LSTM 被用于解决传统 RNN 在随时间反向传播中消失的问题( vanishinggradient problem over backpropagation-through-time) ,重要组成部分包括 ForgetGate 、 InputGate 和 OutputGate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。
LSTM 网络由重复结构的 LSTM 单元组成,与 RNN 不同之处在于,重复的单元有四层特殊的结构( RNN 只有一层)。
LSTM 论文中的简单模型示意图( 8 个输入单元、 4 个输出单元和两个存储单元),被视为领域的经典。
LSTM 的表现通常比及隐马尔科夫模型( HMM )更好,比如用在不分段连续手写识别上。 2009 年,用 LSTM 构建的人工模型赢得过 ICDAR 手写识别比赛冠军。 LSTM 还普遍用于自主, 2013 年运用 TIMIT 自然演讲达成 17.7% 错误率的纪录。作为非线性模型, LSTM 可作为复杂的非线性单元用于构造更大型。
21 世纪 DL 最高被引论文
时间进入 21 世纪, / 领域再次兴起。在新的阶段,有三篇经典论文被人们引用的数量远超其他。
有趣的是,它们都是有关在大规模图像数据集 ImageNet 之中的应用,这在一个侧面说明了方向的火热程度。其中一篇论文介绍了一种快速的、基于 CUDA 的深度卷积――它就是 AlexNet ,这一方法赢得了 2012 年的 ImageNet 竞赛。另一篇论文则是 ImageNet2014 年冠军的获得者:
-
AKrizhevsky 、 ISutskever, GE Hinton 《 Imagenetclassification with deep convolutional neural networks 》 NeuerIPS2012 ( 被引次数 53,000)
-
B.K Simonyan 、 AZisserman 《 Verydeep convolutional networks for large-scale imagerecognition 》 arXiv:1409.1556,2014 ( 被引次数 32,000)
年度被引次数最多的论文,当然是网络更深、性能更强大的 ResNet―― 《 DeepResidual Learning for Image Recognition 》,这一方法赢得了 ImageNet2015 、以及 COCO 竞赛的冠军,也获得了 CVPR2016 的最佳论文奖:该研究的作者是、张祥雨、和(被引次数 36,000 ;其中仅在 2019 年就增长了 18,000 余次)。
等人提出的「 ResNet 」和「基于区域卷积的快速物体检测 FasterRCNN 」等技术目前被学术和工业界广泛采用,对的基础研究具有里程碑式的意义。这些研究的思路也被应用在了之外: ResNet 的思想也启发了 的 AI 程序 AlphaGoZero ,并已被应用到了、等不同领域。
ResNet 现在甚至也成为了硬件衡量算力的 Benchmark 标准。参与这一研究的四名中国学者如今也都广为被人们所知,当时他们均任职于亚洲研究院视觉计算组。
值得注意的是,这些「屡次打破记录的 GPU 加速卷积」也可以追溯到 Schmidhuber 及其弟子们的研究。 AlexNet 的作者 Krizhevsky 在其论文里引用了 DanNet ,后者是第一个充分利用 CUDA ,并在图像识别挑战上超越人类水平( 2011 年)的卷积。 DanNet 在 2011 年的 ICDAR 中文手写内容识别竞赛、 IJCNN2011 交通信号识别竞赛、 ISBI2012 竞赛以及 ICPR2012 医疗影像识别竞赛中获得了冠军。
作为目前卷积中最著名的一种, ResNet 比 DanNet 和 AlexNet 更深入,前者引用了 Srivastava 等人在 2015 提出的 HighwayNet (也是 Schmidhuber 等人的研究),这是个特例。从某种意义上讲,这形成了 LSTM 的闭环,因为「 HighwayNet 在本质上是 LSTM 网络的前馈版本」。
大多数 LSTM 的引用都是参考的 1997 年的这篇 LSTM 论文,但 Schmidhuber 在 AnnusMirabilis 发表的一篇文章指出, LSTM 的基本观点可以追溯到 SeepHochreiter 在 1991 年的毕业论文,他认为那篇论文是「研究史上最重要的文献之一」。而且他还向其他学生表示感谢:「 LSTM 及其训练程序的改进,都需归功于 FelixGers 、 AlexGraves 以及其他我的学生们的贡献。」
LSTM 的原理对于循环网络和前馈网络都是必不可少的,如今它存在于每一部智能手机上,还存在于在星际争霸以及 在 Dota 这些游戏中取得的冠军中,以及大量 AI 相关应用中。
不过, LSTM 被人们「再次重视」或许也只是一时的现象。在 Reddit 上有网友指出,最近基于 Transformer 的方法正在逐渐升温。
参考链接: https://www.reddit.com/r/MachineLearning/comments/eg8mmn/d_the_1997_lstm_paper_by_hochreiter_schmidhuber/
p { margin-bottom: 0.25cm; line-height: 115%;