腾讯优图实验室论文入选计算机视觉领顶级会议CVPR 2018

腾讯科技 • 7年前扫码分享

据外媒报道，即将在6月美国盐湖城举行的计算机视觉顶级会议CVPR2018，腾讯优图的其中两篇入选论文，由于其较高的应用价值，受到学术界和产业界的关注。

腾讯优图论文再次入库顶级学术会议

作为计算机视觉领域最高级别的会议之一的CVPR，其论文集通常代表着计算机视觉领域最新的发展方向和水平。这也是腾讯优图继2017年在另一计算机视觉顶级会议ICCV会议中获得12篇论文被收录，包含3篇口头报告（该类论文仅占总投稿数2.1%）的成绩后，2018年，科研成果再次丰收，论文被CVPR2018收录。此次腾讯优图入选的论文提出了诸多创新点，既是科研实力的体现，更挖掘出了更多可扩展应用技术，视觉AI有望为学术界和产业界带来更多有价值的贡献。

其中基于尺度迭代深度神经网络的图像去模糊算法

（“Scale-recurrent Network for Deep Image Deblurring”），介绍了AI技术在处理非特定场景图片去模糊中的应用，和通过Facelet-Bank进行快速肖像处理

（Facelet-Bank for Fast Portrait Manipulation），介绍了用AI技术快速处理肖像的应用，这两项技术，解决了长期困扰图片处理中的一些难题，因为极大的应用价值而受到产业界和关注。我们将着重介绍，这两个最受外媒关注的技术和应用场景。

解密运动模糊：走向实用的非特定场景图片去模糊技术

在慢速曝光或快速运动拍摄照片时，图像模糊常常困扰着照片拍摄者。优图实验室的研究人员开发了可以恢复模糊图像的有效新算法。

在此之前，图像去模糊一直是图像处理中困扰业界的难题。图像模糊产生的原因可能非常复杂。比如，相机晃动，失焦，拍摄物体高速运动等等。现有的图片编辑软件中的工具通常不尽如人意，例如，Photoshop CC中的“相机抖动还原”工具，只能处理简单的相机平移抖动模糊。这种类型的模糊在计算机视觉业内被称为“均匀模糊”。而大部分模糊图片并不是“均匀模糊”的，因而现有图片编辑软件的应用十分有限。

腾讯优图实验室的新算法，可以处理非特定场景中的图片模糊。算法基于一种被称为“动态模糊”的模糊模型假设。它为每个像素的运动单独建模，因而可以处理几乎所有类型的运动模糊。比如，上图中，由于相机抖动而产生的平移和旋转，每个人物的运动轨迹都不相同。经过腾讯优图实验室的新算法处理后，图片已经恢复到几乎完全清晰，甚至背景中的书籍上的字也清晰可辨。

据腾讯优图实验室的研究员介绍，腾讯优图采用的方法采用的基本技术是深度神经网络。在经历了对数千对模糊／清晰的图像组的处理训练后，强大的神经网络自动学习了如何将模糊的图像结构清晰化。

尽管使用神经网络进行图片去模糊并不是一个新想法，但腾讯优图实验室别出心裁的将物理直觉结合进来以促进模型训练。在腾讯优图实验室新算法的论文中，其网络模仿了一种被称为“由粗到精”的成熟的图像恢复策略。该策略首先将模糊图像缩小成多种尺寸，然后从比较容易恢复的较小而偏清晰的图像出发，逐步处理更大尺寸的图片。每一步中产生的清晰图像则可以进一步引导更大的图像的恢复，降低了网络训练的难度。

AI肖像艺术家：以干净优雅的方式快速处理人像属性

修改人像照片中的脸部属性（不仅是美化）非常困难。艺术家通常需要对人像做很多层面上的处理才能使得修改后的图像自然美观。AI可以接管这些复杂的操作吗？

来自贾佳亚教授领导的腾讯优图实验室的研究人员提出了“自动人像操纵”的最新模型。借助此模型，用户只需简单地提供所需效果的高级描述，模型就会根据命令自动呈现照片，例如，使他变年轻/变老等。

完成这项任务，面临的主要挑战是，无法收集到“输入-输出”的样本用于训练。因此，无监督学习中流行的“生成对抗”网络通常用于此任务。然而，优图团队提出的这种方法并不依赖于生成对抗网络。它通过生成带噪声的目标来训练神经网络。由于深度卷积网络的去噪效果，其网络的输出甚至优于所学习的目标。

“生成对抗网络是一个强大的工具，但它很难优化，我们希望找到更简单的方法来解决这个问题，我们希望这项工作不仅能减轻艺术家的负担，还能减轻训练模型的工程师的负担。”腾讯的研究人员说。

据介绍，该模型的另一个吸引人的特点是它支持局部模型更新，也就是说，当切换不同的操作任务时，只需要替换模型的一小部分。这对系统开发人员十分友好。而且，从应用层面，也使得应用可以“增量更新”。

即使相片中的人脸没有裁剪并且很好地对齐，该模型也可以隐式地参加正确的面部区域。在很多情况下，用户仅仅将原始照片输入给模型就足以产生高质量的结果。甚至将视频一帧一帧地输入模型中，也可以处理整段视频中人脸的属性。

附：除以上两篇，腾讯优图实验室其余入选CVPR2018的文章简介

1、Referring Image Segmentation via Recurrent Refinement Networks

根据自然语言的描述来分割图片的指定区域是一个充满挑战的问题。此前的基于神经网络的方法通过融合图像和语言的特征进行分割，但是忽略了多尺度的信息，这导致分割结果质量不高。对此，我们提出了一种基于循环卷积神经网络的模型，在每一次迭代过程中加入底层卷积神经网络的特征来使得网络可以逐渐捕获图片不同尺度下的信息。我们可视化了模型的中间结果并且在所有的相关公开数据集中都达到了最佳水平。

2、Weakly Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer

通过由姿态引导的知识迁移进行弱监督及半监督的人体部位分割

人体部位解析，或称人类语义部位分割，是许多计算机视觉任务的基础。在传统的语义分割方法中，我们需要提供手工标注的标签，以便使用全卷积网络（FCN）进行端到端的训练。虽然过去的方法能达到不错的效果，但它们的性能高度依赖于训练数据的数量和质量。在本文中，我们提出了一种获得训练数据的新方法，它可以使用容易获得的人体关键点的数据来生成人体部位解析数据。我们的主要想法是利用人类之间的形态相似性，将一个人的部位解析结果传递给具有相似姿势的另一个人。使用我们生成的结果作为额外的训练数据，我们的半监督模型在PASCAL-Person-Part数据集上优于强监督的方法6个mIOU，并且达到了最好的人类部位解析结果。我们的方法具有很好的通用性。它可以容易地扩展到其他物体或动物的部位解析任务中，只要它们的形态相似性可以由关键点表示。我们的模型和源代码将在之后公开。

3、Learning Dual Convolutional Neural Networks for Low-Level Vision

基于双层卷积神经网络处理低层视觉的方法

本文提出了一个双层卷积神经网络来处理一些低层视觉问题，比如图像超分辨率、保边缘的图像滤波、图像去雨、图像去雾等。这些低层视觉问题通常涉及到目标结果的结构和细节部分的估计。受此启发，本文提出的双层卷积神经网络包含两个分支，其中这两个分支可端到端的估计目标结果的结构和细节信息。基于估计的结构和细节信息，目标结果可分别通过特定问题的成像模型来得到。本文所提出的双层卷积神经网络是一个一般性的框架，它可以利用现有的卷积神经网络来处理相关低层视觉问题。大量的实验结果表明，本文所提出的双层卷积神经网络可以应用于大多数低层视觉问题，并取得了较好的结果。

4、GeoNet: Geometric Neural Network for Joint Depth and Surface Normal Estimation

GeoNet：通过几何神经网络进行联合的深度和平面法向量估计

在这篇论文中，我们提出了几何神经网络，用于同时预测图片场景的深度和平面法向量。我们的模型基于两个不同卷积神经网络，通过对几何关系的建模来循环迭代更新深度信息和平面法向量信息，这使得最后的预测结果有着极高的一致性和准确率。我们在NYU数据集上验证了我们提出的几何神经网络，实验结果表明我们的模型可以精确预测出几何关系一致的深度和平面法向量。

5、Path Aggregation Network for Instance Segmentation

通过路径聚合网络进行实例分割

在神经网络中，信息传递的质量是非常重要的。在本文中，我们提出了路径聚合神经网络，旨在提升基于区域的实例分割框架中信息传递的质量。具体来讲，我们构建了自下而上的通路来传递储存在低层神经网络层中精确的定位信息，缩短了底层网络和高层网络之间的信息传输距离，增强了整个特征层级的质量。我们展示了适应性特征池化，它连接了区域特征与所有的特征层级，进而使得所有有用的信息都能够直接传递到后面的区域子网络。我们增加了一个互补的分支去捕捉每个区域不同的特性，最终提升了掩膜的预测质量。

这些改进十分易于实现，而且增加了较少的额外计算量。这些改进帮助我们在2017 COCO实例分割竞赛中取得第一名，在物体检测竞赛中取得第二名。而且我们的方法也在MVD和Cityscapes数据集中取得最好成绩。

6、FSRNet: End-to-End Learning Face Super-Resolution with Facial Priors

FSRNet:基于先验信息的端到端训练的人脸超分辨率网络

本文由腾讯优图实验室与南京理工大学主导完成，并入选Spotlight文章。人脸超分辨率是一个特定领域的超分辨率问题，其独特的人脸先验信息可以用来更好超分辨率人脸图像。本文提出一种新的端到端训练的人脸超分辨率网络，通过更好的利用人脸特征点热度图和分割图等几何信息，在无需人脸对齐的情况下提升非常低分辨率人脸图像的质量。具体来说，本文首先构造一个粗粒度超分网络恢复一个粗精度的高分辨率图像。其次把该图像分别送入一个细粒度超分编码器和一个先验信息估计网络两条分支。细粒度超分编码器抽取图像特征，而先验网络估计人脸的特征点和分割信息。最后两条分支的结果汇合送入一个细粒度超分解码器重构出最终的高分辨率图像。为了进一步生成更真实的人脸，本文提出人脸超分辨率生成对抗网络，将对抗思想融入超分网络中。另外，我们引入人脸对齐和人脸分割两种相关任务，作为人脸超分的新的评估准则。这两种准则克服了传统准则（比如PSNR/SSIM）在数值和视觉质量不一致的问题。大量实验显示，本文提出的方法在处理非常低分辨率人脸图像时，在数值和视觉质量两方面都显著优于以往超分方法。

7、Generative Adversarial Learning Towards Fast Weakly Supervised Detection

基于生成对抗学习的快速弱监督目标检测

该论文提出一种面向快速弱监督目标检测的生成对抗学习算法。近年来弱监督目标检测领域有着大量的工作。在没有人工标注包围盒的情况下，现有的方法大多是多阶段流程，其中包括了候选区域提取阶段。这使得在线测试的速度比快速有监督目标检测（如SSD、YOLO等）慢一个数量级。该论文通过一种新颖的生成对抗学习算法来加速。在这过程中，生成器是一个单阶段的目标检测器，引入了一个代理器来挖掘高质量的包围盒，同时用判别器来判断包围盒的来源。最后算法结合了结构相似损失和对抗损失来训练模型。实验结果表明该算法取得了明显的性能提升。

8、GroupCap: Group-based Image Captioning with Structured Relevance and Diversity Constraints

基于组群的带结构化相关性和差异性约束的图像自动描述

该论文提出了一种基于组群图像结构化语义关联性分析的图像自动描述方法（GroupCap），对图像间的语义相关性和差异性进行建模。具体而言，该论文首先利用深度卷积神经网络提取图像的语义特征并利用提出的视觉解析模型构建语义关联结构树，然后在结构树基础上采用三联损失和分类损失对图像间语义关联性（相关性和差异性）进行建模，最后将关联性作为约束来引导深度循环神经网络生成文本。该方法新颖且有效，很好解决了当前图像自动描述方法对于生成结果精确度不高且判别性不强的缺陷，并在图像自动描述的多项指标上取得较高的性能。