AI顶会真奇葩!ICML杰出论文说变就变,田渊栋差点获大奖? 独家揭秘背后大瓜
昨天,ICML 2021发生了一件匪夷所思的事情。
在7月19日晚上, ICML 2021官网上公布了大会杰出论文的获奖名单 ,评选出了一篇杰出论文和三篇荣誉提名论文。
但在7月20日上午,ICML 突然变更获奖信息, 将原来的杰出论文更改为荣誉提名,并宣布另一篇新论文是正式的杰出论文奖得主。
此消息一出,不知康奈尔大学的这两位学者作何感想。
而 AI 科技评论在顶会报道方面向来都是 手速最快 ,这次当然也是全网首发报道:
获奖论文临时变更的消息还真是头一次遇到,还好有万能的评论区帮忙挽救,但标题终究是误导人了呀!
为此,AI科技评论向各位亲爱的读者说声, 抱歉 。
ICML 2021的这一迷惑操作也让吃瓜群众困惑不已。有人凭直觉认为,这突然凑上来的论文,原来评分肯定不高的吧,后来居上般的操作,难道有潜规则?
有人则猜测是评委会一直在吵架,直到公布获奖结果的那一刻,还在争到底哪一篇才应该当选杰出论文。并且,最后获奖的杰出论文是有评审极力支持,再凭借程序主席发话,从而力排众议,让一众评审心服口服,得以登上宝座,成为大会黑马。
如果真是这样,那今年的候选论文可谓不相伯仲,评审过程肯定精彩。
但实际上,真相往往平凡的有点朴素,朴素的有点无趣—— 网站搞错了。
AI科技评论联系到了评委会的一位成员(以下称为评委A),其证实:一开始网站上的颁奖信息是错的,多伦多大学、谷歌大脑的这篇论文“Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies”, 在7月初就决定了是杰出论文得主。 “弄错的原因,可能就是大会议程匆忙,工作人员又多,转交信息的时候,难免有误。”
并且,现在的最终版获奖名单,也早在上周五就通知了作者。
原来,只是个小乌龙。
1
小乌龙背后
估计作者们看到官网上的最初消息,特别是康奈尔大学的两位学者,也是一脸懵,就像AI科技评论看到网站后来又更改了名单那样懵。
但这其中也有一个小插曲,康奈尔大学这项原先被误放为杰出论文的工作,评委A说道, “这项工作原本并不能拿提名,但很多评委都很赞赏,认为其在算法和方法论方面很出色,并且潜在影响力很大。所以在最后时刻,也就是7月11日左右,它被推选为提名论文。”
今年比较巧合的是,杰出论文和一篇荣誉提名论文都是由多伦多大学和谷歌大脑合作完成的,评委们也曾在最后时刻纠结过:这是只给一个奖呢,还是都给呢?
后来他们得出的结论是,两篇论文的作者不一样,都发奖吧!
评委A还告诉了AI科技评论获奖论文的评选过程。
“具体来说,所有的候选论文都是从ICML 2021的100多篇long oral论文中选出来的,由领域主席决定候选名单。”
在5月17日,每一位领域主席都会收到一封邮件,询问是否愿意推荐自己负责的某篇论文作为候选。 最后,一共有13篇论文进入候选名单。 6月17日,开始获奖论文的评选流程。“在评分时,分数只能从4、5、6里选。而在评选会议接收论文时,分数的范围是1-6。”
推荐了候选的领域主席被分为两组,每一组由一位程序主席负责,即华盛顿大学的 Marina Meila教授 ,和香港科技大学的 张潼教授。
对于每一篇候选论文,还会另外找两位领域主席作为第二、第三读者,以复查审稿人和领域主席没发觉的问题。
在这两组中,其中一组最后获得提名的有两篇,也就是康奈尔大学的“Optimal Complexity in Decentralized Training”,以及德国几所机构合作的“Solving high-dimensional parabolic PDEs using the tensor train format”。另外一组获得提名的则是其它三篇论文。到7月初,两个组合并,商讨最终结果。
纵观这13篇候选论文,评委A表示, 其中很多都是理论和数学比重非常高,但是机器学习比重不够的论文 ,“比如我审的论文中,有一篇是关于估计一个定义在矩阵特征值上的函数的,研究如何更快更准地计算出来,这是纯计算代数的问题。”
这类论文最终都没能得到提名 ,“数学和理论计算机科学还是有一定的距离。这些论文或许在其它会议、期刊,能得到更高的评价,比如SODA,或者纯数学期刊等等。”
评委A还补充道,近年来,很多非机器学习领域的学者开始投ML会议,“可能是看中了顶会的流量,就算被当作冷门小众,最后传播量也比发数学期刊好。”
而且,很多原来聚焦于理论计算机科学和统计学的会议,其投稿中的深度学习论文也显著多了起来。“一些现在做深度学习表征学习的理论的学者,之前也是做统计学习的。”
AI顶会也呈现趋同现象 ,以机器学习中比较著名的几个会议为例,“NeurIPS、ICML、ICLR、COLT、AISTATS原本风格都不相同的,现在除了COLT和AISTATS参会人数没多大涨幅,NeurIPS、ICML、ICLR基本是差不多的,无论是研究课题还是写作风格。唯一的区别,就是有没有公开评审吧。”
2
田渊栋差点获大奖?
接下来,AI科技评论还捡到了另一个瓜—— Facebook 田渊栋团队差点获得了杰出论文奖!
当时,评委会对田渊栋团队的这篇论文有不小的争议。比如有人觉得对线性模型的理解不能推广到深度模型,并且提出新方法(比如今年的杰出论文)对于学界才是更主要的贡献。但也有人质疑,难道理解现有方法就不是贡献了吗?
评审过程中,还有人争论今年设置的奖项太多了。但实际上,2019年ICML评选出了两篇杰出论文和7篇荣誉提名论文。
“这篇关于自监督学习的论文在技术层面和杰出论文不相上下,但最终评分低了一点,挺可惜的。 如果大会投票决定颁发两个杰出论文奖,比如2019年和2020年,它就能获奖。”
程序主席总结了田渊栋团队这篇论文最终没能获奖的理由——这篇论文技术性很强,也应该拿到高分,但所在领域相对于当选杰出论文还是偏冷门、偏小众,导致潜在影响力较小。“但和别的提名以及没有提名的候选论文相比,自监督学习仍然是很有影响力的。”
评委A也感叹道, “另一方面,对于针对问题的研究而言,在实践中一般不会第一时间被注意到,而更多注意到做模型、做优化的研究,这也是它们之所以冷门的一个原因。”
相对而言,那篇杰出论文更偏向于方法论,“其实四篇提名都比较偏理论,而获奖论文更偏方法论。顺便说一下,获得test of time奖项的论文也是偏向于方法论而非理论。”
评委A补充道, 做方法、算法的论文比较难脱颖而出,但它们依然是最有影响力的,“读者群用户群基数大,实践中落地的可能性也更大。”
3
入选论文推荐理由一览
对于最终入选5篇论文的推荐理由,评委A表示,总体而言是基于技术难度和潜在影响力。
比如多伦多大学、谷歌大脑合作的杰出论文“Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies”,评委会认为这项研究的技术难度高,同时 它能应用到很多种类的计算图上面。
FAIR、斯坦福大学合作的“Understanding self-supervised learning dynamics without contrastive pairs”这篇论文(田渊栋一作)则是基于技术性,以及 对比学习的潜在影响力,“对比学习可以做任务无关的表征预训练。”
德国柏林自由大学等合作的“Solving high-dimensional parabolic PDEs using the tensor train format”这篇论文一方面是因为数学难度非常高,另一方面是开拓了机器学习新应用,“ 搞自然科学的人几乎束手无策的问题,竟然能用深度学习来解 ,这很令人惊讶。但它实在太过于‘应用数学’了,在应用数学的会议上很可能拿到最佳,但在ICML就显得太小众。”
多伦多大学、谷歌大脑合作的“Oops I Took A Gradient: Scalable Sampling for Discrete Distributions”,除了技术难度,“ 离散域上的MCMC,属于卡了好多年的难题。 本来离散的输入是没有梯度定义的,他们用能量函数实现了梯度定义。不过这项工作的理论基础之前就有了,他们现在做成功了,这相当于发明蒸汽机和改进蒸汽机的区别。”评委A补充道,一共有4篇候选论文研究通过离散的代数和几何对象,来实现近似求导,从而可以应用梯度下降算法。“有一些是word2vec的思路。先将对象转化为embedding,然后就不再是离散域的对象了。”
康奈尔大学的“Optimal Complexity in Decentralized Training”这篇论文,则是因为在理论上对分布式训练有深刻的理解, “这项工作太偏理论导致受众较窄,但分布式训练是未来趋势,最终能上榜也是因为技术很强。”
4
冷门领域没活路?
今年ICML依然选择线上举行,评委A告诉AI科技评论,这导致AI会议的领域关注度更加呈现出马太效应。以下图为参照,最热门的当属算法、深度学习、理论等8个领域,最冷门的甚至只有一篇论文,比如partial label,还有kernel embedding,以及two-sample test之类的统计检验算法,“kernel embedding在七八年前还是大热门,真是风水轮流转。 冷门领域基本上没人看,有一个包含22篇Poster的场,最后一共不到30个人在看,还包括了讲者本人,大家待了半小时就散了,简直快没活路了。”
而且,由于线上参会导致人们不能逃离原来的生活和工作,所以很多人干脆不参会了。
很真实,这也是AI科技评论的小伙伴们积极跑线下会的原因。
群体的反应是最真实的,评委A说道, 尽管监督学习和分类任务不再新鲜,但依然是最热门的课题。
当然,预训练模型作为近两年的宠儿,也颇受欢迎。“预训练很有用,自己出电费,然后方便别人。 但只有少数机构能做出来,无法形成庞大的社区,所以看似发展很快,实际上在方法论层面变化不大。”
其他热门的主题包括可信赖AI,包括对抗攻击等等 ,“可信赖AI在美国比较受关注,对抗攻击则在美国、国内都有很多人在做。”
雷锋网特约稿件,未经授权禁止转载。详情见。