学界 | NIPS 2016 论文SpotlightVideo精选，三分钟了解一项最新研究进展（附论文）

搜狐科技 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

机器之心编辑

编译参与：吴攀、李亚洲、杜夏德、微胖

近日，NIPS 官网开放了部分录用文章的 Spotlight Videos，南京大学 Ph.D. Candidate 魏秀参在查看了这些视频之后「特别将一些有趣、有料的 highlight 出来分享给大家」，原分享文章发表在他个人的知乎专栏。机器之心在获授权后在此基础上编译了相关论文的摘要。（注：排名不分先后，但魏秀参根据自己的兴趣在每篇文章后用「★」标记出了推荐指数，五星为最高。）点击「阅读原文」下载所有论文。

　　魏秀参专栏： https://zhuanlan.zhihu.com/p/24158507

全部spotlight video链接： https://nips.cc/Conferences/2016/SpotlightVideos

　　 1.Fast and Provably Good Seedings for k-Means ：传统 k-Means 算法受初始化影响较大，虽然后来有 k-Means++算法来优化初始化结果，但该算法不能适用于海量数据。本文提出了一种新的更优且高效的针对 k-Means 初始化方法（oral paper）★★★

　　论文地址： https://papers.nips.cc/paper/6478-fast-and-provably-good-seedings-for-k-means.pdf

　　摘要：在为 k-means 获取高质量聚类（clustering）中，发现初始聚类中心的任务――seeding――是极其重要的。然而，当前最佳的算法 k-means++seeding 在大规模数据集上扩展不是很好，因为其内在是序列形式的，并且需要 k 值在数据中的完全通过。近期的研究表明，马尔科夫链蒙特卡罗采样法（Markov chain Monte Carlo sampling）可被用来有效地近似 k-means++ 的 seeding 步骤。然而，这一结果需要在生成分布的数据上进行假设。我们提出了一种简单的、更快的 seeding 算法，即使在没有数据上的假设的情况下也能产生好的聚类。我们的分析表明该算法可在解决方案质量和计算成本之间良好地权衡，能将 k-means++ 的 seeding 速度提升数个级别。我们在多个真实世界数据集上的大量实验中验证了该理论成果。

2.Hierarchical Question-Image Co-Attention for Visual Question Answering ： 针对 VQA 提出不仅要在 image domain 需要 attention，同时为了增加鲁棒性还需在 question domain 同样加入 attention；★★

论文地址： https://arxiv.org/pdf/1606.00061v3.pdf

视频地址： https://www.youtube.com/watch?v=m6t9IFdk0ms&feature=youtu.be

摘要：近期有大量论文提出了用于 Visual Question Answering（VQA）的注意模型，VQA 的目标是为了生成突出了关于回答问题的图像区域的空间图（spatial maps）。在此论文中，我们认为除了建模「看哪里（where to look）」或视觉注意（visual attention）之外，建模「听哪些词（what words to listen to）」或问题注意（question attention）同样重要。我们提出了一个全新的用于 VQA 的联合注意模型（co-attention model），其可以联合推理图像和问题注意。此外，我们的模型可以通过一个全新的 1 维卷积神经网络以层级的形式推论问题（并最终能通过联合注意机制推论相应的图像）。我们的模型将 VQA 数据集上的前沿成果从 60.3% 提升到了 60.5%，在 COCO-QA 数据集上的结果从 61.6% 改进到了 63.3%。通过使用 ResNet，在 VQA 数据集上的结果进一步改进到了 62.1%，COCO-QA 的结果改进到 65.4%。

3.Residual Networks Behave Like Ensembles of Relatively Shallow Networks： 实验角度探究了 ResNet，提出 ResNet 更像很多小网络的集成。比较有意思的 paper；★★★★★

论文地址： https://arxiv.org/pdf/1605.06431v2.pdf

视频地址： https://www.youtube.com/watch?v=jFJF5hXuo0s

摘要：在此文章中，我们提出了一种对残差网络的全新解释：残差网络可被视为不同长度的多个 path 的集合。此外，通过在训练中只使用短 path，残差网络能够使非常深度的网络成为可能。为了支撑这一观点，我们将残差网络重新编写为 path 的显性集合。不像传统的模型，通过残差网络的 path 的长度不同。此外，一个 lesion study 揭示出这些 path 显示出了 ensemble-like 行为，也就是不很强的依靠彼此。最后，也是最惊人的，大部分 path 都要比预期的短，在训练过程中也只需要短 path，这是因为长 path 对梯度没有任何贡献。例如，在 110 层的残差网络中的大部分梯度来自于只有 10-34 层深度的 path。我们的结果显示该方法的一个主要特性是使得训练极其深的深度网络成为可能：残差网络通过引入短 path 而避免梯度消失的问题，这些短 path 可以使梯度穿过非常深度的网络的延展。

4.Boosting with Abstention： 利用 Boosting 框架处理了当有「弃权」情况产生时的分类情况；★★

　　论文地址： https://papers.nips.cc/paper/6335-boosting-with-abstention

视频地址： https://www.youtube.com/watch?v=NTKIXcpoJGM&feature=youtu.be

摘要：我们提出了一个用于二元分类的关键场景，带有 abstention 新的 boosting 算法，其中该算法可以以一个固定的成本为代价，放弃预测一个点的标签。在每一轮中，我们的算法都要选择一对函数：一个基本的预测器和一个弃权（abstention）函数。我们为与该问题相关的自然损失函数定义了凸上界（convex upper bounds），经过证明，它可以用相关的贝叶斯解决方案来校准。在对应函数类别的 Rademacher 复杂度上，我们的算法受益于通用的基于边界的学习保证，我们用其推导基本预测器和 abstention 函数的对。我们为我们的算法提供了收敛保证，并为 abstention stump 提供了线性时间弱学习算法。根据我们的报告，几次试验的结果显示我们的算法在实践中带来的提升显著超过了两个基于置信度的算法。

5.Stochastic Multiple Choice Learning for Training Diverse Deep Ensembles ：多个深度模型集成算法；★★★★

论文地址： https://arxiv.org/abs/1606.07839

视频地址： https://www.youtube.com/watch?v=KjUfMtZjyfg&feature=youtu.be

摘要：很多实际的感知系统存在于更大的处理过程中，包括与用户的互动或者能够评估预测解决方案质量的附加组件。在这些情景中，为这些 Oracle 机制提供多种极有可能的假设而不是单一的预测是有益的。在本研究中，我们提出将产生多个输出的任务看作是深度网络集成上的一个学习问题――引进一种全新的随机梯度下降法来最小化与一个 Oracle 相关的损失。我们的方法实现起来很简单，无关于架构和损失函数，也不需要参数。在广泛的任务和深度架构上，相较于现有的方法，我们的方法实现了较低的 Oracle 误差。我们还以定性的方式显示了产生的多样解决方案通常都会提供任务模糊性的可解释的表征。

6.Active Learning from Imperfect Labelers： 提出一种 adaptive 算法以处理主动学习中 labeler 不不确定的情况；★★

论文地址： https://papers.nips.cc/paper/6161-active-learning-from-imperfect-labelers

视频地址： https://www.youtube.com/watch?v=zslooZuNNIk&feature=youtu.be

我们研究了主动学习（active learning），其中标注器（labeler）不仅能返回错误的标签还能放弃标记。我们考虑了该标注器的不同噪声和弃权（abstention）条件。我们提出了一种使用了弃权回应的算法，并在对于该标注器的噪声和弃权率的相对自然的假设下分析了其统计一致性（statistical consistency）和查询复杂性（query complexity）。该算法能达到某种程度的自适应，它能自动要求用带有更多信息的或更少噪声的标注器进行少量的查询。我们给我们的算法配上较低的下界，以表明在某些技术条件下，它能达到几乎最优的查询复杂性。

7.Deep learning for Human Strategic Behaviour： 顾名思义，同时也是一篇 oral。另外，视频做的很有趣:) ★★

论文地址：https://papers.nips.cc/paper/6161-active-learning-from-imperfect-labelers

摘要：在战略环境中预测人类的行为是许多领域的重要难题。大部分已有的研究要么假设人类完全的理性，要么基于认知心理学和实验经济学试图直接建模人类的认知流程。在此研究中，我们提出了另一种方法：在不依赖专业知识的情况下自动完成认知建模的深度学习方法。通过使用矩阵单元而非标量单元，我们引入一种全新的架构使得单个网络能够在不同的输入和输出维度上进行泛化。而且结果表明其表现超越了之前的顶尖方法，也就是依赖专业结构特征的方法。

8.Improved dropout for shallow deep learning ：提出一种改进版本 dropout ★★★★

　　论文地址： http://papers.nips.cc/paper/6561-improved-dropout-for-shallow-and-deep-learning.pdf

视频地址： https://www.youtube.com/watch?v=oZOOfaT94iU&feature=youtu.be

摘要：在训练深度神经网络上，dropout 已经通过独立地使神经元的随机输出归零而取得了巨大的成功。它也在浅度学习（shallow learning）上引起了人们的兴趣，比如 logistic 回归。但是 dropout 的独立采样在用于收敛时可能并不是最优的。在这篇论文中，我们提出了用于 dropout 的多项采样（multinomial sampling），即基于不同特征/神经元的不同概率的多项分布来采样特征或神经元。为了展现出最优的 dropout 概率，我们使用多项 dropout 分析了浅度学习并建立了随机优化的风险边界（stochastic optimization）。通过最小化风险边界中一个独立于采样的因素，我们获得了独立于分布的 dropout，其带有依赖于该数据分布的二阶统计的采样概率。为了解决这种深度学习中神经元的演化分布的问题，我们提出了一种有效的自适应 dropout（名为 evolutional dropout），其可以根据 mini-batch 样本在传输过程中计算该采样分布。在多个基准数据集上的实验表明我们提出的这种 dropout 不仅能实现远远更快的收敛，而且还比标准 dropout 有更小的测试误差。比如说，在 CIFAR-100 数据上，相比于标准的 dropout，该 evolutional dropout 在预测表现上实现了相对超过 10% 的提升，而在收敛速度上的提升则超过了 50%。

9.Single Pass PCA of Matrix Products： 解决了大矩阵 PCA 分解问题 ★★★

论文地址： https://papers.nips.cc/paper/6075-single-pass-pca-of-matrix-products.pdf

视频地址： https://www.youtube.com/watch?v=Ir4-eNz6tOw&feature=youtu.be

开源地址： https://github.com/wushanshan/MatrixProductPCA

摘要：在本论文中，我们提出了一种用于仅使用两个矩阵 A 和 B 的单次通过来计算乘积

[Image: https://dx903567.quip.com/-/blob/YPDAAA37MfL/XBWTd3tni6shFkdMNmR4xw] 的低秩近似（low rank approximation）的新算法。实现这种方法的直接方法是（a）首先单独描绘（sketch）A 和 B，（b）然后在该 sketch 上使用 PCA 来寻找顶部成分（top components）。和其它算法相比，我们的算法保留了关于 A 和 B 的附加概要信息（如，行和列的规范等），并使用了这种额外的信息来获取来自这些 sketch 的更好的近似。我们的主要分析结果为已有的双通道方法建立了一个可比较的谱范数保证（spectral norm guarantee）；此外，我们还提供了一个 Apache Spark 的实现结果，其在真实世界的和合成的评估数据集上都实现了更好的计算和统计表现。

10.Convolutional Neural Fabrics ：抽象化 CNN，学习网络结构 ★★★★

论文地址： http://papers.nips.cc/paper/6304-convolutional-neural-fabrics.pdf

视频地址： https://www.youtube.com/watch?v=bqPJFQEykbQ

尽管 CNN 已经取得了很大的成功，但为特定的任务选择出最优的架构仍然还是一个悬而未决的问题。我们的目标并不是选择出单个的最优架构，我们提出了一种嵌入了非常大量的架构的「fabric」。该 fabric 由 3D 网格构成，这些网络将不同层、规模和信道的响应图（response maps）与一个稀疏的均匀的局部连接模式（sparse homogeneous local connectivity pattern）连接到了一起。一个 fabric 仅有的超参数就是信道和层的数量。当单个架构可以被作为路径（path）而恢复时，该 fabric 可以额外地将所有嵌入的架构组合到一起，在它们的重叠路径上共享它们的权重。参数可以使用基于反向传播的标准方法进行学习，但会有 fabric 大小上的线性扩展性的成本。我们给出了在 MNIST 和 CIFAR10 的图像分类任务上、以及在 Part Labels 数据集的语义分割任务上的可与当前最佳表现媲美的基准结果。

11.Learning Deep Embeddings with Histogram Loss： 提出无参的 Histogram loss 进一步优化深度模型特征嵌入；★★★

论文地址： https://arxiv.org/pdf/1611.00822v1.pdf

　　视频地址： https://www.youtube.com/watch?v=FMtfi7mpirY&feature=youtu.be

摘要：我们提出了一种学习深度嵌入的损失函数. 这个新的损失函数没有引入需要调试的参数以及在一系列数据组和问题上非常好的嵌入结果。该函数的计算方法是评估两个相似性的分布（针对正匹配和负匹配的样本对），然后基于一个评估的相似性分布，计算正匹配的概率，获取一个比负匹配更加低的相似性得分。我们表明，这一操作能够使用带有软分配操作的 1D 柱状图，以一种简单、分段-可微分的方式进行。这样就得到了适合使用随机优化学习深度嵌入的损失函数，在实验中，较之近期提出的替代方案，新函数表现地很有前途。

12.Tagger: Deep Unsupervised Perceptual Grouping 很有料的文章，另外视频很赞，建议授予「最佳视频奖」:) ★★★★★

论文地址： https://arxiv.org/pdf/1606.06724v2.pdf

我们提出了一个高效的感知推理框架，可以对输入和特征的分割进行明确推理。这个框架不是训练进行任何具体分割，它以一种无监督方式或伴随任何监督任务学习处理 grouping process。我们能让一个神经网络通过一种可微分机制、以一种交互方式对不同目标表征进行聚合。通过让系统分摊聚合及其表征的联合迭代推理，我们实现了非常快速的收敛。与许多其他最近提出的用于解决多个对象场景的方法相比，我们的系统没有假设输入是图像，因此可以直接处理其他模态。我们评估了这个方法在非常杂乱的图像上的多数位分类（这需要纹理聚类）的结果。通过利用聚类机制，我们的方法显著改善了卷积网络上的分类结果，尽管是完全连接的。而且，我们观察到系统大幅改善了作为基线的梯形网络在我们数据组上的半监督结果。这些结果证明分组是一个有助于改善取样效率的强大工具。

　　 ?------------------------------------------------

加入机器之心（全职记者/实习生）：hr@almosthuman.cn

投稿或寻求报道：editor@almosthuman.cn

广告&商务合作：bd@almosthuman.cn