几乎否定现有同行成果,谷歌这篇机器学习研究拿下ICML2019最佳论文
图片来源@视觉中国
ICML 2019最佳论文来了!
今年,共有3424篇论文提交到这场一年一度的机器学习国际顶会上,大会共接收了774篇。有两篇论文,从千军万马中脱颖而出,成为ICML 2019最佳论文。
这份大奖花落谁家?谷歌等一篇名为《挑战无监督分离式表征的常见假设》的论文,表明 (没有归纳偏置的) 无监督方法学不到可靠的分离式表征 (Disentangled Representations) 。
这项极富智慧和勇气的研究,几乎全面否定了现有的同行成果,也证明Hinton曾经的观点有问题:
另一篇为《稀疏变分高斯过程回归的收敛速率》,作者为剑桥大学的3位研究人员。
详细看今年的最佳研究:
最佳论文1:分离式表征,没法无监督学习
先用一句话概括一下:谷歌大脑、ETH苏黎世、马普所组成的团队测试了12,000个模型,对现有的无监督分离式表征学习研究,发出了严重的质疑。
理解高维数据,用无监督的方式,把知识蒸馏成有用的表征,是深度学习的一个重要挑战。
一种方法是利用分离式表征 (disentangled representation) :
模型可以捕捉到各种相互独立的特征,如果其中一个特征改变了,其他特征不会受到影响。
这样的方法一旦成功,就可以做出真实世界里也能用的机器学习系统,不论是给机器人,还是给自动驾驶车,以便应对训练中没见过的场景。
不过,在无监督的分离式表征学习上,新近的研究都很难看出这些方法到底有多好,局限又有多大。
谷歌AI团队给各种新近的成果,做了一个大规模的评估。评估结果对现有研究提出了严肃的挑战。并且给分离式学习日后的研究,提供了一些建议。
什么叫大规模的评估?谷歌团队训练了12,000个模型,覆盖了目前最重要的方法,以及评估指标。
重要的是,评估过程中用到的代码,以及10,000个预训练模型,都已经放出了。
它们共同组成了一个巨大的库,叫做disentanglement_lib。让后来的研究人员,可以轻松站到前人的肩膀上。
大规模测试过后,谷歌发现了两个重大的问题:
1、并没有发现任何经验证据,显示无监督方法可以学到可靠的分离式表征,因为随机种子和超参数似乎比模型的选择 (Model Choice) 更重要。
也就是说,就算训练了大量的模型,一部分得出了分离式表征,也很难在不看ground truth标签的情况下把这些表征找出来。
除此之外,好用的超参数值,也并没有在多个数据集里都好用。
谷歌团队说,这些结果吻合了他们提出的定理:
在数据集和模型没有归纳偏置 (Inductive Biases) 的情况下,用无监督的方法学习分离式表征是不可能的。
换句话说,必须要在数据集和模型上,加个前提。
2、在参加评估的模型和数据集上,并没有证实分离式表征对下游任务有帮助,比如:没有证据表明用了分离式表征,AI就可以用更少的标注来学习。
给后来者的建议是:
1、鉴于理论结果证实,不带归纳偏置 (Inductive Biases) 的、无监督学习的分离式表征是不可能实现的,未来的研究应该清楚地描述出归纳偏置,以及隐式和显式的监督方式。
2、为跨数据集的无监督模型选择,找到好用的归纳偏置,是一个非常关键的问题。
3、用了分离式表征学习之后的产生的具体优势,应该要证明出来。
4、实验,应该有可以复现的实验设定,在多种多样的数据集里适用。
顺便提一句,这是一项中选了ICLR 2019 workshop的研究,却最终成了ICML的最佳论文。
最佳论文2:稀疏变分高斯过程回归的收敛速率
今年ICML的第二篇最佳论文是来自英国剑桥大学和机器学习平台Prowler.io的研究。
之前已经有人开发出了一种高斯过程后验的极好变分近似。避免出现数据集大小为N,计算时间复杂度为O(N3)的情况,将计算成本降低到O(NM2),其中M是一个远小于N的数。
虽然计算成本对于N是线性的,但算法的真正复杂度取决于如何增加M以确保一定的近似质量。
本文通过描述向后KL散度(相对熵)上界的行为来解决这个问题。研究者证明,若M比N增长得更慢,KL散度很有可能会变得任意小。一个特例是,对于在具有常见的平方指数核的D维正态分布输入的回归,只要M = O(logD N)就足够保证收敛了。
结果表明,随着数据集的增长,高斯过程后验概率可以被非常容易地近似,并为如何在连续学习场景中增加M提供了一种具体的规则。
研究者证明了,从稀疏广义回归变分近似到后验广义回归的KL散度的边界,它只依赖于之前核的协方差算子特征值的衰减。
这个边界证明训练数据集中在一个小区域的光滑核允许高质量、非常稀疏的近似。当M≪N时,真正稀疏的非参数推断仍然可以提供对边界似然性和逐点后验的可靠估计。
本文作者在最后指出,具有非共轭可能性的模型的扩展,尤其是在Hensman等人的框架中由稀疏性引入的附加误差,为未来的研究提供了一个有前景的方向。
这篇文章的第一作者是来自剑桥大学信息工程系的博士研究生David Burt,他的主要研究领域是贝叶斯非参数和近似推理。
作者之一Mark van der Wilk是Prowler.io的研究者,他也是剑桥大学机器学习专业的在读博士研究生,主要的研究领域是贝叶斯推理、强化学习、高斯过程模型等。
7篇最佳论文提名
除了2篇最佳论文外,还有7篇论文获得最佳论文提名,分别为:
1、Analogies Explained: Towards Understanding Word Embeddings(爱丁堡大学)
论文地址:https://arxiv.org/abs/1901.09813
2、SATNet: Bridging deep learning and logical reasoning using a differentiable satisfiability solver(CMU、南加州大学等)
论文地址:https://arxiv.org/abs/1905.12149
3、A Tail-Index Analysis of Stochastic Gradient Noise in Deep Neural Networks(巴黎萨克雷大学等)
论文地址:https://arxiv.org/abs/1901.06053
4、Towards A Unified Analysis of Random Fourier Features(牛津大学、伦敦过国王学院)
论文地址:https://arxiv.org/abs/1806.09178
5、Amortized Monte Carlo Integration(牛津大学等)
论文地址:http://www.gatsby.ucl.ac.uk/~balaji/udl-camera-ready/UDL-12.pdf
6、Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning(MIT、DeepMind、普林斯顿)
论文地址:https://arxiv.org/abs/1810.08647
7、Stochastic Beams and Where to Find Them: The Gumbel-Top-k Trick for Sampling Sequences Without Replacement(荷兰阿姆斯特丹大学等)
论文地址:https://arxiv.org/abs/1903.06059
国内多所高校上榜
和往常相比,今年的ICML格外热闹。
德国博世公司抓取了ICML 19官网上的接收数据,将论文的接受比例、贡献最多的机构以及贡献最大的个人作者统计了出来。不少国内高校和学者榜上有名。
原统计地址:https://www.reddit.com/r/MachineLearning/comments/bn82ze/n_icml_2019_accepted_paper_stats/
今年,共提交了3424篇论文,接收了774篇,接收率为22.6%。2018年,ICML的论文提交量为2473篇,接收621篇,接收率为25%。
和去年相比,今年论文提交论文数量增长不少,但录取率降低。
那么,在这么多投稿机构中,谁是其中贡献度最高的那一个?
博世统计了接收论文的机构,排名标准是衡量一个机构贡献的论文总量,最终统计结果如下:
上图红色表示每个机构包含的第一作者,绿色为最后包含的排名最后的作者
结果显示,科技巨头Google贡献最多,MIT第二,加州大学伯克利分校夺得季军。
其中,清华大学、北京大学、南京大学、香港中文大学、上海交通大学、阿里巴巴等多个中国高校和公司榜上有名。
在这些接收论文中,来自学术界的论文数量远多于工业界,论文来源构成如下:
- 452篇论文(58.4%)为纯学术研究
- 60篇论文(7.8%)来自纯产业界研究机构
- 262篇论文(33.9%)的作者同时隶属于学术界和工业界
总体来看,学术界贡献了77%的论文,产业界贡献了23%。
在这么多投稿的作者中,哪些作者的贡献度最高?博世同样对此进行了统计。
结果显示,加州大学伯克利分校的机器学习大牛Michael Jordan参与论文数量最多,EPFL(洛桑联邦理工学院)教授Volkan Cevher位列第二,加州大学伯克利分校的Sergey Levine排名第三。
也有不少中国学者战绩颇佳,清华大学计算机科学与技术系的教授朱军、微软亚洲研究院的刘铁岩、清华大学软件学院的龙明盛等都在ICML 2019发表了4篇论文。
传送门
最后,附上今年的ICML 2019大会官网:
https://icml.cc/
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App