顶会见闻系列:ICML 2018(下),能量、GAN、监督学习、神经网络
雷锋网 (公众号:雷锋网) AI 科技评论按:本篇属于「顶会见闻系列」。每年这么多精彩的人工智能/机器学习会议,没去现场的自然可惜,在现场的也容易看花眼。那么事后看看别的研究员的见闻总结,也许会有新的收获呢。
曾在中科院自动化研究所模式识别国家重点实验室实习的 Gautier Marti 现在是 NLP 量化分析研究员。机器学习+金融的研究人员对理论性较强的 ICML 有何感悟呢?雷锋网 AI 科技评论把他的个人博客文章全文编译如下。本篇为下篇,共两篇。上篇见 这里 。
ICML 正会第二天 - 能量,GANs,排序,课程学习,以及我们的论文
ICML 2018 的正会第二天由阿姆斯特丹大学机器学习研究主席 Max Welling 的以「每千瓦能量的智能」为标题的会议报告开头。他讨论了物理和 AI 之间的联系(比如能源,熵,信息,比特,最小可描述长度原理等),包括模型方面和能源成本方面。当前的模型(如深度神经网络)需要大量的能量。从物理能量(建模)思想出发推导出深度学习的一个贝叶斯形式,能带来(现实中)更能源高效的模型。最终这些事情都能一一连接起来。这里有一个他关于该主题的 另一个报告 ,与 ICML 的这个报告相比有较大不同。
我参加了会议的以下 session,其中一些论文让我印象很深刻:
生成模型(session 1)
Geometry Score: A Method For Comparing Generative Adversarial Networks (几何分数:一种比较生成对抗网络的方法)
作者通过比较原始数据的流型和生成数据的流形的几何性质,构建了一种新的 GAN(生成对抗网络)的性能评价方法,为评估提供了定性和定量的手段。具体的说,为了研究数据流形,作者使用了拓扑数据分析(Topological Data Analysis),如一组在离散点云上进行拓扑分析的方法形式(参见 Gunnar Carlsson 的 这篇文章 ,深度介绍了 TDA;以及 GUDHI (Geometry Understaning in Higher Dimensions) github code )
排名与偏好学习(session 2A)
加速光谱排名(Accelerated Spectral Ranking)
问题:给定 n 项之间的成对或多项比较,目标为要学习每项的分数。这些分数可以进一步用于这些项目的排名。例如,在推荐系统中,目标可能是通过观察用户在面对这些项目的不同子集时所做的选择,来学习这些项目全部放在一起时的排名。在多路比较的情况下,有一种称为 Luce 光谱排名的方法(LSR, Luce spectral ranking), 它通过在 n 个项目的比较图上构建随机游走(random walk,等效于一个马尔科夫链)来解决问题。如果两项之间存在成对或者多向比较的话,则该两项之间有一条边。构造该随机游走的目的是使得其静止分布对应于 MNL、BTL 模型的权重。作者提出了一种更快的算法来做到这一点。
该 session 的其他论文似乎也很有意思,但是我目前对这个领域并不是很熟悉,就不多加评论了。我可能会在最近尝试一下这些方法。这里是 SQL-Rank: A Listwise Approach to Collaborative Ranking 的 github 地址。
监督学习(session 2B)
监督学习的 session 包含了很多机器学习的实践者们非常关心的问题讨论:在充满噪声的标签上学习;提高模型的实证收敛速度。后者可以通过课程设置学习(curriculum learning)来实现,即先使用简单的样本学习,然后逐渐增加样本的难度。本 session 的论文似乎都能够在很短的时间内对工业界产生影响,论文的作者中有 Uber 的负责人 Raquel Urtasun 和 Google AI 的负责人李飞飞。
Curriculun Learning 的论文:
MentorNet: Learning Data-Driven Curriculum for Very Deep Neural Networks on Corrupted Labels. (MentorNet:在受损的标签上为非常深的神经网络学习数据驱动的课程学习)
Learning to Reweight Examples for Robust Deep Learning (学习重新为样本设置权重,用于鲁棒深度学习), 非原作者 github
Dimensionality-Driven Learning with Noisy Labels (有噪声的标签上的维度驱动学习), github
深度学习(神经网络架构)(session 3)
Extracting Automata from Recurrent Neural Networks Using Queries and Counterexamples (通过查询与反例从 RNN 中抽取自动机),对于那些经过理论计算机科学和深度学习训练的人来说,这篇论文应该是非常有趣的。
Autoregressive Convolutional Neural Networks for Asynchronous Time Series (用于异步时间序列的自回归卷积神经网络), github 。这是我们的论文,是一个自回归模型,其权重是非线性的,可以处理异步多变量时间序列。对于一个应用的例子,想象经销商在场外交易市场中提供报价:这些报价到达的时间随机(或多或少与经销商有些关系),报价可能存在一些偏差和方差(bias and variance),同时在转给其他经销商时可能有一些滞后。该模型旨在捕捉这些关系,并且主网络的权重允许对这些经销商之间的关系(超前-滞后)进行一些解释和可视化。我们可以将这项工作推广到其他计量经济模型。
正会会场之外,JP Morgan 也在自己的展台上展示了自己的 深度对冲 方法。
ICML 正会第三天 - 时间序列分析,NLP,更多仿人的学习机器
ICML 正会第三天开场的是 Ronan Collobert 与 Jason Weston 的 ICML 2008 论文《 A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning 》(一个自然语言处理的统一架构:多任务学习深度神经网络)获得「时间检验奖」的演讲。在 这里 可以看到 10 年前作者们的一些讨论以及当时是否被接受。我没能现场听到他们的演讲,因为斯德哥尔摩的城际列车被停运了。
我参加了这几个 session:
时间序列分析(session 1)
深度贝叶斯无参追踪
迁移学习与多任务学习(session 2)
自然语言与语音处理(session 3)
一共有四个演讲,三个是 Facebook 的研究员在讲,还有一个是谷歌的人在讲
(全文完。雷锋网 AI 科技评论的 ICML 报道参见 ICML 2018 斯德哥尔摩开幕,公平性研究戴上光环 , 金句频出,16位大神在ICML上展开了一场机器学习的Great Debates )
via Gautier Mari's Wander ,雷锋网 AI 科技评论编译
。