Facebook介绍ICCV2017收录论文，其中五分之一都有何恺明的名字（附下载链接）

雷锋网 • 7年前扫码分享

雷锋网 (公众号：雷锋网) AI 科技评论按：本周，全球的计算机视觉专家们即将齐聚威尼斯参加 ICCV （International Conference on Computer Vision）2017，展示计算机视觉和相关领域的最新研究进展。ICCV由IEEE主办，与计算机视觉模式识别会议（CVPR）和欧洲计算机视觉会议（ECCV）并称计算机视觉方向的三大顶级会议。CVPR每年召开一次，而ECCV和ICCV在世界范围内每年间隔召开。ICCV论文录用率很低，也符合它顶级会议的地位。

今年ICCV中，Facebook有15篇论文被收录，同时Facebook的研究员们也会参与多个workshop和tutotial。总体情况而言，ICCV 2017 共收到2143篇论文投稿，其中621篇被选为大会论文，录用比例29%。下面是Facebook此次收录的论文列表，按照不同的研究主题分组。（雷锋网 AI 科技评论发现，何恺明有多达三篇论文被收录；而谷歌的李飞飞也参与了一篇Facebook的论文）

语义和图像分割

Mask R-CNN

作者：何恺明，Georgia Gkioxari, Piotr Dollar, Ross Girshick
论文简介：这篇论文介绍了一个新型系统，它可以预测图像中的每一个像素属于哪一类中的哪一个物体。也就是说，这个系统不仅可以勾画出图中羊的轮廓并告诉你它们是羊（这一步属于语义分割），同时还能告诉你图像中的哪些部分对应着哪一只羊（实例分割）。Mask R-CNN是最早成功达到这类目标的系统之一。Facebook CTO Mike Schroepfer今年早些时候就在 F8 的主题演讲中展示了几个Mask R-CNN的应用例子。
雷锋网 AI 科技评论之前写过这篇论文的解析文章，参见 Mask R-CNN实例分割通用框架，检测，分割和特征点定位一次搞定

Predicting Deeper into the Future of Semantic Segmentation

向着语义分割的未来做更深远的预测
作者：Pauline Luc, Natalia Neverova, Camille Couprie, Jakob Verbeek, Yann LeCun
论文简介：这篇论文中，作者们开发了一个深度学习模型，它可以从给定的一帧来自视频的画面尝试预测下一帧会发生什么。换句话说，它在尝试猜测视频中的未来会如何。这篇论文表明，得到的模型可以提升计算机视觉系统在语义分割之类的任务中的表现。

Segmentation-Aware Convolutional Networks Using Local Attention Masks

运用局部注意力遮罩的分割敏感的卷积网络
作者：Adam W. Harley, Konstantinos G. Derpanis, Iasonas Kokkinos
论文简介：随着卷积层不断向后推进，卷积神经网络中的单个神经元要观察的图像区域也越来越大。这会带来局部性非常差、并且模糊的响应，就是因为神经元要观察的图像范围太大了。在这篇论文中，作者们让每个神经元只关注部分感兴趣的区域，从而让神经元的响应变得更明确。

Dense and Low-Rank Gaussian CRFs Using Deep Embeddings

使用深度嵌入的密集、低排序高斯CRF算法
作者：Siddhartha Chandra, Nicolas Usunier, Iasonas Kokkinos
论文简介：虽然卷积神经网络可以准确地把图像中的像素分为不同的类别（比如汽车，飞机等等），但临近区域的分类结果却经常不一致，一个物体的一半可能会被识别为“床”，另一半则可能被识别为“沙发”。这篇论文提出了一种方法，连接了所有像素的分类结果，形成连续一致的预测结果，同时还保持了很高的效率。

物体识别

Focal Loss for Dense Object Detection

密集物体检测中的焦距损失
作者：Tsung-Yi Lin, Priya Goyal, Ross Girshick, 何恺明, Piotr Dollár
论文简介：这篇论文中介绍了一个用于物体识别的新系统。它和现有顶尖的物体识别方案采用了不同的技术路径。目前多数其它系统都由多个阶段组成，每个阶段都由不同的模型实现，这篇论文中设计了一个模型在一个阶段中解决整个物体识别问题。这种方法的简单性极其诱人，因为这让这个系统的实现和使用都简单了许多。
雷锋网 AI 科技评论之前写过这篇论文的解析文章，参见两届CVPR最佳论文得主何恺明新作：应对样本的不平衡分布，刷新密集物体检测表现上限

Low-shot Visual Recognition by Shrinking and Hallucinating Features

通过缩放和变幻进行小样本视觉识别
作者：Bharath Hariharan, Ross Girshick
论文简介：一般来说，物体检测系统都要先用需要识别物体的照片进行训练，每个类别都需要数以千计的照片。这篇论文针对的问题是如何在仅仅看过一种新物体的很少几张样本后就能对它进行识别。它使用的方法是产生更多的要学习的物体的样本（缩放和变幻）。

Transitive Invariance for Self-supervised Visual Representation Learning

具有变换不变性的自我监督视觉表征识别
作者：Xiaolong Wang, 何恺明, Abhinav Gupta
论文简介：这篇论文的目标是为物体检测学习更好的模型，途径是观察视频中的物体外观如何变化。比如，视频中一辆汽车开过，在不同的帧中展示了汽车不同的侧面。由于已知视频中的每一帧都展示的是同一辆车，用这些信息学习的模型就可以更好地理解同一个物体在不同视角下的样子。然后就可以用得到的模型改善物体检测的效果。

图像分类

Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization

Grad-CAM：通过基于梯度的本地化展示深度网络的视觉解释
作者：Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batra
论文简介：多数现代图像分类系统都基于卷积神经网络的结构。这些网络的表现当然很不错，但是它们也还在很大程度上是“黑盒子”。这篇论文介绍了一种新的方法可以揭开这个黑盒子，把图片中能够让系统识别出结果的区域用特定的方式进行可视化。

Learning Visual N-Grams from Web Data

从网络数据学习视觉N维信息
作者：Ang Li, Allan Jabri, Armand Joulin, Laurens van der Maaten
论文简介：多数图像识别系统都是用人工标注的大规模图像数据库训练的，当中这个标注过程又枯燥又无法扩展。这篇论文中开发了一个图像识别系统，它是用5千万张图像和对应的用户评论训练的，不需要人工标注。这个系统可以识别物体、地标，以及数个单词长的场景，比如“金门大桥”或者“自由女神像”。

视觉和语言综合应用

Inferring and Executing Programs for Visual Reasoning

用于视觉推理的推断和执行程序
作者：Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Judy Hoffman, 李飞飞, C. Lawrence Zitnick, Ross Girshick
论文简介：这篇论文讨论了这样一个视觉推理任务：给定一张图像，要让模型回答“绿色盒子前面的那个东西是什么形状？”模型的工作方式是使用一个“模块化网络”，这个网络会把问题转换成一个简单的计算机程序，然后用神经网络实现其中的每一个指令。这篇论文还展示了一个新的数据集用于视觉推理，名为“CLEVR-Humans”

Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning

用深度强化学习训练合作视觉对话机器人
作者：Abhishek Das, Satwik Kottur, Jos. M. F. Moura, Stefan Lee, Dhruv Batra
论文简介：这篇论文中，作者们开发了一个聊天机器人，它能回答关于图像的问题。你可以问它“那个女人的伞是什么颜色的”这样的问题。如果图像中有两个女人，这个聊天机器人会问你：“哪个女人？”你答复它：“黑色头发的那个”，然后聊天机器人会告诉你：“伞是蓝色的。”离真正解决这类问题还有很远的距离，但这是这个领域的首项研究，对这个问题做出努力。

Learning to Reason: End-to-End Module Networks for Visual Question Answering

学习推理：用于视觉问题回答的端到端模型网络
作者：Ronghang Hu, Jacob Andreas, Marcus Rohrbach, Trevor Darrell, Kate Saenko
论文简介：这篇论文介绍了一种用于回答“紫色的圆柱体左侧的球是什么颜色”这类问题的新方法。在新方法中，问题会首先被转换为一个小型计算机程序；然后程序中的每个指令都会由一个神经网络来执行。程序生成器和程序执行器都是从成对的图像和问题中学习的。

Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training

讲一样的话：通过对抗性训练让机器符合人类生成的标题
作者：Rakshith Shetty, Marcus Rohrbach, Lisa Anne Hendricks, Mario Fritz, Bernt Schiele
论文简介：这篇论文要处理的问题是图像标题的自动生成，也就是说，用自然语言描述一副图像。主要的技术创新是，它尝试让系统生成的标题更像是人类生成的。

图像生成

Unsupervised Creation of Parameterized Avatars

无监督创作参数化漫画照片
作者：Lior Wolf, Yaniv Taigman, Adam Polyak
论文简介：这篇论文中开发了一个新的系统，它可以基于一张正常的脸部照片，生成一个看起来很像你的漫画照片。主要的技术创新是，系统是以一种无监督的方法训练的。这意味着它并不是用成对的脸部照片和对应的漫画照片训练的，它拿到的只有整整一组人脸照片和另一组漫画的照片。系统会自动学习如何找到人脸照片和漫画照片之间的对应关系。

3D视觉

Deltille Grids for Geometric Camera Calibration

用于几何相机矫正的Deltille网格
作者：Hyowon Ha, Michal Perdoch, Hatem Alismail, In So Kweon, Yaser Sheikh
论文简介：物体的三维模型在很多场景下都会用到，比如虚拟显示VR中。在一个圆顶一样的空间内布置上百个相机，让它们同时拍一张照片，就可以建立出一个三维模型。这些相机都需要先进行校准，这样如果系统知道所有相机的确切位置，它就可以把所有的照片都进行合并，生成这个物体的三维模型。在过去的几十年中，相机的校准工作都是通过拍一张标准标定板完成的。这篇文章中的成果表明，如果拍摄一张带有三角形区域的标定板，相机可以被校准得更加准确。