复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

雷锋网 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

雷锋网 (公众号：雷锋网) AI科技评论按，目标检测作为一个基础的计算机视觉任务，在自动驾驶、视频监控等领域拥有非常广泛的应用前景。目前主流的目标检测方法都严重依赖于在大规模数据集（如ImageNet）上预训练初始模型。而在 DSOD: Learning Deeply Supervised Object Detectors from Scratch 这篇论文中，作者通过分析深度检测模型从头训练存在的问题，提出了四个原则，他们根据这些原则构建了DSOD模型，该模型在三个标准数据集（PASCAL VOC 07, 12和COCO）上都达到了顶尖的性能。这篇论文已被ICCV2017收录。

在近期雷锋网 AI研习社的线上分享会上，该论文的第一作者——复旦大学Ph.D沈志强为我们带来了对DSOD的详细解读，与此同时也介绍了他在CVPR 2017和ICCV 2017上的一些其它研究工作。

沈志强，复旦大学Ph.D，UIUC ECE系访问学者，导师Thomas S. Huang教授。研究兴趣包括：计算机视觉（目标检测、视频描述、细粒度分类等），深度学习，机器学习等。他曾在因特尔中国研究院（Intel Labs China）进行为期一年的实习研究，期间合作者包括研究院Jianguo Li博士和在读博士生Zhuang Liu等。

分享内容：

很高兴与大家分享我们的最新的工作DSOD，这篇论文已经被ICCV 2017 所收录。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

众所周知，计算机视觉有几个比较重要的分类，包括目标分类、定位、目标检测、实例分割，前两个分类是针对单个目标，后两个分类是针对多个目标，DSOD主要是针对目标检测。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

说到目标检测，大家可能会想到如下几个比较有代表性的方法：R-CNN、Faster-RCNN、YOLO、SSD。下图是关于他们的一些介绍。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

ImageNet预训练模型的限制：一是模型结构是固定的，你不可能改变它的结构，二是会有learning bias，三是会出现domain不匹配的情况。我们的思路是从头训练检测器，但是我们用R-CNN和Faster-RCNN都没能得到较好的表现。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

简单回顾下Rol pooling，如下图所示：

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

它其实就是一个max pooling：

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

可以在下图中看到forward和backward情况，把Rol pooling去掉这个框架就类似于YOLO和SSD。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

几个原则： 一是Proposal-free 。去掉Rol pooling，虽然对模型的表现影响不大，但这一点非常重要。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

二是Deep Supervision 。采用Dense Block，能避免梯度消失的情况。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

三是Dense Prediction Structure 。大大减少了模型的参数量，特征包含更多信息。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

四是Stem Block 。采用stem结构，好处是能减少输入图片信息的丢失。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

下面是DSOD整体结构：

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

这是我们做的一些对比实验，可以看到增加这些结构之后性能提升的百分点：

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

下面是在PASCAL VOC2007上的实验结果，可以看到Faster-RCNN和R-CNN速度很慢，YOLO和SSD的速度非常快，但是mAP不高。最下面是我们没有用预训练模型做的一些对比实验，可以看到Faster-RCNN和R-CNN均以失败告终，最后的一行的实验加入COCO后mAP值提升，说明DSOD模型本身的泛化能力非常强。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

下面是在PASCAL VOC2012上的实验结果，可以看到DSOD有不错的mAP值。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

接下来是在COCO上面的一些结果，对比起来DSOD的也有很好的性能。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

最后是一些实际的检测结果，可以看到bounding box对目标的检测非常贴合。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

论文地址： https://arxiv.org/abs/1708.01241

代码： https://github.com/szq0214/DSOD

模型可视化示例： http://ethereon.github.io/netscope/#/gist/b17d01f3131e2a60f9057b5d3eb9e04d

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

最后简单介绍下我们在CVPR 2017的相关工作Dense Video captioning，主要是做视频描述。在视频当中包含很多内容，而这些内容并不一致，因此视频描述相对来说会比较困难。下图是一些示例。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

网络结构如下图所示。具体细节大家可以参见我们的论文 Weakly Supervised Dense Video Captioning ，论文地址： https://arxiv.org/abs/1704.01502

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

接下来是我们在ICCV 2017上的工作，主要是做网络压缩。我们用了一个衡量channel是否重要的值来训练模型，然后剔除掉不太重要的特征层。论文代码我们也放在github上了。具体细节大家可以参见论文 Learning Efficient Convolutional Networks through Network Slimming ，论文地址： https://arxiv.org/abs/1708.06519

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

本次分享的视频如下：

雷锋网 AI科技评论整理编辑。

。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

随意打赏

复旦大学目标检测

评论