ML&NLP顶会论文发表总榜：谷歌最狂，清北入前十

网易科技 • 5年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

（原标题：ML&NLP顶会论文发表总榜：谷歌最狂，清北入前十，周明、张岳、刘挺华人前三）

中美差距何止一丁点！

作者 | 丛末、蒋宝尚

编辑 | 贾伟

伦敦帝国理工学院机器学习和自然语言处理著名学者Marek Rei 教授从2016年起，每年都会对ML&NLP相关的会议论文进行统计和分析，并一年一度发表分析结果，目前已成为该领域权威性的报告内容。

近期，Marek Rei 再次发布2019年度机器学习和自然语言处理（ML&NLP）领域的年度统计。

从其分析中，我们可以清晰地看到在ML&NLP领域到底哪家单位最狂（非谷歌莫属），哪些单位实例雄厚，哪位学者研究突飞猛进，以及中美之间实力差距如何巨大。

根据Marek Rei教授的报告结果，我们一一进行分析！

注：报告统计数据来源于2019年机器学习和NLP相关的会议和期刊，其中统计范围包括ACL，EMNLP，NAACL，EACL，COLING，TACL，CL，CoNLL，NeurIPS，ICML，ICLR，AAAI。

1、NeurIPS指数式增长

几乎所有的会议都在2019年破了纪录，尤其是NeurIPS，曾指数上升趋势，根据数据显示其规模是最大的，而且领先AAAI接近300篇论文。当然，由于COLING和EACL在2019年没有举办，所以没有统计其数据。

2、谷歌发文最多，清北排名前十

2019年论文发表数量最多的机构是哪个呢？

其中谷歌顺利占据了领先地位，在各个领域都发表了大量的论文。例如，在 ICML 上，谷歌发表的论文数量是紧随其后的MIT 的两倍有余。值得一提的是，Marek 之前几年的统计中曾将DeepMind的论文也囊括在谷歌发表的论文之中，而在这一次则将DeepMind 的论文发表情况单独列出。

微软和 CMU 也发表了大量的研究成果，在所有会议上发表的论文数总量分别排在第二、第三。

而清华大学、北京大学，则是中国进入各大会议论文数总量前十的两所高校，分别排在第七、第九，这也说明了近年来中国高校在学术论文上的影响力日益攀升。

3、八年争夺，微软、CMU总量第一，谷歌上升迅猛

接下来我们来看2012年至2019年的总体数据。

虽然在2019年由谷歌占据主导地位，然而CMU 和微软在2012年至2019年整场“马拉松式”的拉锯战中遥遥领先。并且值得一提的是，CMU 和微软在2012年至2019年的论文发表数量完全相同，都为1215篇论文。

排在两者其后的，是谷歌、斯坦福大学、MIT、IBM、伯克利大学、清华大学和北京大学。

如果我们再看下时间分段数据，我们会发现谷歌上升势头迅猛。虽然在2012年至2016年，谷歌发表的论文总数要比CMU和微软的少得多，但是从2018年开始，它的论文发表数就开始远超包括CMU和微软在内的其他所有机构。

而所有排在前列的机构都呈上升趋势，在2019年发表的论文数量都远比此前发表的论文数量要多。

其中，中国机构表现最突出的清华大学，虽然论文发表数量在前几年中都一直较大地落后于国外机构，但在所有机构总体上升的趋势下，以高于平均上升趋势的幅度，终于在2019年拿下第七的排名，实属不易！

4、Sergey年产33篇论文，刘知远25篇位列华人第一

就个人作者而言，伯克利的 Sergey Levine 在2019年总共发表了33篇论文，其中在NeurIPS 上12篇，ICML上6篇，ICLR上15篇。其他比较高产的作者分别是：卡内基・梅隆的Neubig、蒙特利尔的Yoshua Bengio。清华大学的刘知远副教授以25篇排名第四（华人第一），其次是微软亚研院秦涛研究员（24篇）以及其同事刘铁岩（23篇）。

此外，北大的孙栩、加州大学圣塔芭芭拉分校的王威廉、腾讯AI Lab的Shuming Shi也不分上下，分别发表了21、21、20篇论文，排名前十以内。我们还注意到统计中包括了西湖大学的张岳（18篇）、微软的高剑峰（18篇）、Caiming Xiong（18篇）、哈工大刘挺（17篇）、北大赵东岩（18篇）等。

5、八年期，Yoshua Bengio晋级第一，周明、张岳、刘挺华人前三

将2012~2019年的数据作为一个整体来看，蒙特利尔的Yoshua Bengio已经取代了DeepMind的Chris Dyer成为最高产的作者。

位列第三的微软周明，第四的西湖大学张岳、华盛顿大学的 Noah A. Smith 以及位列第六的哈尔滨工业大学的刘挺有超过90篇论文产出。

这里需要强调，由于中国学者英文重名现象比较严重，为了统计方便，列表中删除了Yang Liu这一作者，因为有多人用此名字对论文署名，导致难以分辨。这导致清华大学计算机系的刘洋教授没有被统计排名。

以“年”为节点进行观察，Sergey Levine、Graham Neubig、Yoshua Bengio各自发表的文章的数量都比前几年要多，而且这几个人也都超过了Chris Dyer在2016年创下的记录。

另外，值得注意的是西湖大学张岳的论文发表在2015、2016年达到最高产，刘挺则是在2014年发表最多。

6、以一作之名，平均两个月可发一篇顶会论文

论文的第一作者通常是论文初稿的写作人，实验设计的主要参与者以及实验的主要执行者。一般能够在第一作者署名意味着在论文里面的贡献比较大。下面让我们看看论文第一作者的情况。

Gabriele Farina 是卡内基梅陇四年级的博士生，他以第一作者的身份发表论文6篇，其中有3篇被NeurIPS收录。威斯康星大学的Diakonikolas，杜克大学的 Hanrui Zhang、新加坡国立大学的Rui Zhang以及清华大学的武楚涵、北京大学的杨鹏程、普林斯顿的 Sanjeev Arora、微软的Zeyuan Allen-Zhu、IBM的 Mikhail Yurochkin也都有5篇论文是第一作者的署名。.

其中清华大学的武楚涵三篇文章发在了EMNLP上，北京大学的杨鹏程有五篇文章发表在了ACL上面。

纵观第一作者的论文，其中微软的Zeyuan Allen-Zhu、香侬科技李纪为、剑桥的Ivan Vuli?和Ryan Co、亚马逊的Young-Bum Kim以及普林斯顿的Sanjeev Arora发表的论文最全面，涉及的顶会最多。

其中李纪为在七个会议上发表了论文，数量颇丰位列第一。

7、中美差距，何止一丁点！

分析2019年各国家和地区的论文发表数量，这还是首次。不可否认地，下面这张统计图展示了美国在 AI 领域“力压群山”的主导地位，不过中国、英国、德国和加拿大在该领域所发挥的影响力也不容小觑。

单独从各大会议会议上来看，中国在 AAAI 上的论文发表数量甚至与美国持平，可见中国研究者在 AAAI 上扮演着举足轻重的角色。另外中国在NeurIPS、EMNLP、ACL 等会议上的表现也非常出色，虽然可能不及在 AI 领域本就拥有先天优势的美国，但是遥遥领先于其他国家和地区。

下图展示了2012年至2019年各国家和地区的论文发表总数，整体排名和差距情况与2019年各国家和地区的发表论文数量差不多。

这些年来，美国的论文发表数量都一直远超其他国家和地区，并且现在还在加速拉大这一差距。而中国则在拼尽全力与美国匹敌，如今也以不断增大的幅度领先于美国以外的其他国家和地区。而英国虽然在论文发表数量以及增长幅度上不及美国和中国，也还是牢牢锁住了第三的位置。

美国―企业主导

由于美国2019年的论文发表数量在所有国家和地区中占据了遥遥领先的主导地位，因而以下这张美国2019年论文发表数量统计图整体情况与各大机构2019年论文发表数量统计图差不多，谷歌依旧遥遥领先，而微软和CMU 依旧排在第二、第三。

中国―高校领先

在中国，高校是论文发表的中坚力量，排在前十的有九所高校，仅有一家企业。

清华大学和北京大学分别锁住了第一、第二的宝座，二者在国际舞台上的表现同样不菲，是中国进入全球各机构论文发表排行榜前十仅有的两所高校，近年来对于 AI 领域的整体发展做出了较大的贡献和推动作用。

中国科学院大学、中国科学院、南京大学是论文发表数量排在第三至第五的高校，三所高校在中国乃至全球 AI 领域扮演的角色同样出类拔萃，不仅有该领域的领军人物坐镇，如周志华等，还有为 AI 领域培养了一大批人才，如中科院计算所等机构。

而企业同样是中国论文发表的一只辅助力量，其中百度、阿里巴巴是其中表现比较出色的企业，分别成立了科研性的实验室，近年来也发表了大量的科研论文。

英国― DeepMind的传奇

在英国，谷歌麾下的DeepMind 遥遥领先，其后是剑桥大学、牛津大学、爱丁堡大学、伦敦大学学院、帝国理工大学和阿兰图灵机构。

值得注意的是，阿兰图灵机构由剑桥、牛津、爱丁堡、华威和伦敦大学学院五所大学领导，所有该机构的论文发表数据与其他几所大学有一定交叉，因此具体数据比较模糊。

论文发表数量排在前七的机构中，剑桥大学和爱丁堡大学主要聚焦于 NLP 领域，而其他机构则主要专注于 ML 领域。

德国―NLP一家独大

在德国，达姆施塔特工业大学是论文发表数量最多的机构，尤其是在 NLP 领域，论文发表数量占德国论文发表总数的2/3。罗伯特・博世有限公司总体论文发表数量排在第二，但 ML 领域的论文发表数量却是德国机构中最多的。

随后是萨尔大学、慕尼黑大学、图宾根大学、慕尼黑工业大学、马克斯普朗克智能系统研究所，分别排在第三至第第七的位置。

加拿大―三足鼎立

在加拿大，多伦多大学的论文发表数量是各机构中最出类拔萃的，排在第一，随后是蒙特利尔大学、Vector 人工智能研究院，分别排第二、第三。

滑铁卢大学是聚焦于 NLP 领域研究的唯一一所机构，而其他机构的论文大多数都发表在 ML 的相关会议上。

8、国际合作的多元化，中国还有待提升

Marek 也做了另外一项分析，即根据论文研究课题进行相似性分析，得出一些有意思的结论：

首先是组织之间的相似性，从下图可以看出，来自中国的大学主要集中在图的上部分，美国大学主要在图的右侧，欧洲则在左侧，企业在中间。因此可以看出研究课题即是非常具有区域性的，高校之间的相互合作受地域影响很大，而企业则相对就比较灵活。

相似性也可以应用到作者的分析上，下图的紧密度反映了研究者之间研究课题的相似性和合作频率。从图中可以看出秦涛（Tao Qin）和刘铁岩（Tie-Yan Liu）很近，这很容易理解，他们都在微软亚洲研究院工作。

也可以将相似性分析应用到国家和地区。不过鉴于每个国家都会有许多不同的主题，下面这个图可能更能代表它们的合作频率。中国居于右下角，距离较近的是新加坡、澳大利亚、日本等，但距离其他国家和地区就比较远了，例如与台湾、韩国、法国等的合作就不是很紧密。而美国和英国在国际合作上相对比较多元化。

9、因崔斯汀的统计数据

最后，让我们再来看一些有趣的数据：

1）提及GitHub（就是指有代码开放）的论文占比：ACL 有70 %的论文、 EMNLP 有69%,的论文、 NAACL有68%的论文、 ICLR 有56%的论文、 NeurIPS有46%的论文、ICML 有45%的论文、 AAAI 有31%的论文提及GitHub。如此来看，NLP领域的论文似乎大多都免费开放了论文代码。

2）单篇论文作者最多有24位，论文是《 CoSQL: A Conversational Text-to-SQL Challenge Towards Cross-Domain Natural Language Interfaces to Databases》（地址：https://arxiv.org/abs/1909.05378）

3）标题最长的论文：《What if We Simply Swap the Two Text Fragments? A Straightforward yet Effective Way to Test the Robustness of Methods to Confounding Signals in Nature Language Inference Tasks》（地址：https://arxiv.org/abs/1809.02719）

4）标题最短的论文：《Graph U-Nets》（地址：https://arxiv.org/abs/1905.05178）

参考来源：

https://www.marekrei.com/blog/ml-and-nlp-publications-in-2019/