CVPR 2019丨京东AI斩获3项冠军和2项亚军,京东技术转型成果显著
摘要:2019年6月18日,京东AI研究院在美国长滩召开的计算机视觉顶级会议CVPR 2019上获得视频动作识别、商品图片识别、精细粒度蝶类图片识别3项学术比赛第一。
京东刚刚过完第16个“生日”,除了不断攀升的GMV,以零售见长的京东在技术领域也频传捷报。2019年6月18日,京东AI研究院在美国长滩召开的计算机视觉顶级会议CVPR 2019上获得3项学术比赛第一。这3项比赛分别为视频动作识别、商品图片识别,以及精细粒度蝶类图片识别。此外,京东AI研究院还在多人人体解析、菜品类图像识别竞赛中获得第二名,其中多人人体解析比赛是继在2018年获LIP单人及多人姿态估计赛道两项第一后,再次获奖。
*注:CVPR,即IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。
CVPR 2019年开幕式
CVPR与ICCV、ECCV并称为计算机视觉领域三大国际会议之一,相比2018年,本届CVPR的论文提交数量增加了56%,但论文接收率却下降了3.9%,可见论文入选难度加大。本次京东AI研究院在CVPR 2019上一共发表12篇论文,其中4篇论文还入选了oral presentation,而oral presentation的入选率只有5%,堪称“皇冠上的明珠”。
CVPR 2019年论文数量相比2018年增加了 56%
自2017年2月宣布全面向技术转型以来,京东一方面不断以客户为先,不断挖掘用户需求,大规模应用技术创新成果,不断超越用户的需求,另一方面不断深耕技术,以专业化、系统化、组件化、开放化的方式,为京东及外部产业提供专业的技术能力。AI技术发展到今天,已经取得了诸多突破,各个产业都在张开怀抱,利用AI技术红利,降本增效。京东得益于广阔的场景优势,将这些前沿的AI技术加以应用,目前技术转型之路成果显著。
2019年京东618累计下单金额达2015亿元
在今年618期间,“拍照购”入口订单金额是去年618期间的10倍,618当天更是去年618当天的12倍,人工智能技术的提升为拍照购的精准度、用户体验带来跨越式的升级;618大促期间,京东在线智能客服提供的24小时全天候服务,在1-18日期间累积咨询量超3200万次;6月18日当天,智能客服独立解决超130万次自营类咨询;NeuHub京东人工智能开放平台全线升级,6月1日-18日NeuHub平台累计调用量达到237.66亿。
京东人工智能事业部副总裁、京东AI研究院副院长、计算机视觉与多 媒体 实验室主任梅涛博士表示,我们会在计算机视觉方向上持续深耕,让科研引领业务创新,大家很快也会看到京东AI业务团队基于我们京东AI研究院技术成果的 商业 应用落地。
斩获3项冠军和2项亚军,涵盖计算机视觉多个方向视频分析及理解
ActivityNet号称视频领域的ImageNet,它涵盖动作识别、动作定位与检测等多种视频内容理解任务。其中视频动作识别是最为核心、基础的任务,能充分验证大家对视频理解所涉及的神经网络结构以及训练机制的优劣性,以及技术前沿性的重要指标。
ActivityNet视频动作识别任务(Kinetics)由Google DeepMind组织,已连续举办三年,今年视频数据量达到65万,覆盖700个以人为中心的动作行为类别,包含人与物体的交互动作,如演奏乐器,也包含人与人的交互,例如握手、拥抱等。这是视频领域数据和参赛规模最大、影响力最广、也是技术难度最大的比赛,今年总共有15支来自于美国卡耐基梅隆大学、百度、Facebook 人工智能研究院、上海交通大学 MVIG 实验室等国际知名研究机构的参赛队伍。
京东AI研究院在视频动作识别竞赛排名第一
众多周知,传统卷积操作往往只作用在局部而忽视了长时序的相关性,而且视频信息的复杂性以及视频内容在时间上长短不一,这种缺陷在视频识别领域暴露的更加明显。因此,京东AI研究院提出了一种新的框架,通过局部和全局特征传播(LGD)学习视频中的空间、时间特征。具体就是,构建了一个新的三维神经网络结构,同步学习局部和全局的特征,该结构由基本的LGD模块构成,其中每一个模块通过两个特征互相传播来同时更新局部和全局特征。这种传播操作有效地结合了局部和全局两方面的信息,从而获得了更加强大的视频特征表达。
常规视频动作
针对构建的三维神经网络结构最终会得到局部和全局两种特征,京东AI研究院进一步提出了基于该方法的分类器来综合两方面信息做出分类,最终这种构建方式得到的LGD网络在常用的大规模视频分类数据集Kinetics400和Kinetics600上分别达到了81.2%和82.7%的准确度,均超过了之前最好的视频分类方法。在今年ActivityNet视频动作识别任务(Kinetics)中也取得世界第一的领先水平。
未来落地应用方向:
ActivityNet视频动作识别的突破再次彰显了京东AI研究院在视频内容理解这一重要技术领域中的世界领先水平。值得一提的是,京东 AI 已计划将自主研发的这些优秀视频动作识别能力应用于线下零售、安防、5G多媒体、娱乐等多个领域,旨在降低成本、提高效率、提升体验。
图像识别
京东AI研究院在精细图像识别 (Fine-Grained Visual Categorization,以下简称FGVC) 学术比赛中获得2项冠军、1项亚军。FGVC学术竞赛目前已经举办了六届,是计算机视觉领域中最为权威的精细图像识别比赛。此次比赛中,京东AI研究院分别在商品图片识别和蝶类图片识别的竞赛中获得第一名,其中在商品图片识别竞赛中战胜了美团点评和东信北邮。此外,京东AI研究院在菜品类图像识别中取得了第二名。
京东AI研究院在商品图片识别竞赛排名第一
其中商品图像识别比赛由码隆 科技 、Google Research、FGVC6 Workshop@CVPR2019 联合主办。比赛共涵盖2019类SKU超过一百万图像数据,是 CVPR 迄今数据规模最大、种类最多的商品识别竞赛。两个月的赛程中,全球共有96支队伍、152位选手通过1600次提交参加了竞赛。商品数量庞大、品类众多,许多品类之间的区别十分微小,且训练数据均直接源自各大电商网站,包含大量噪声数据。
京东AI研究院在蝶类图片识别竞赛排名第一
本次比赛中京东AI研究院所采用的技术方案是基于自研的全新精细图像分类算法,该算法通过对原始图像输入按块进行打乱,进而“破坏”图像中的结构信息,然后训练神经网络识别被 “破坏” 局部区域顺序的图像,强迫神经网络抓住重点视觉区域,增强网络对具有区分度局部细节的特征学习能力。
京东AI研究院在菜品类图像识别竞赛排名第二
针对“破坏”后图像中引入的噪声视觉信息,京东AI提出了一种基于对抗的损失函数,将神经网络中的视觉特征加以区分,进一步凸显出有价值的、重点的视觉特征。最后,再让神经网络对“破坏“后的图像进行重构,增强神经网络对不同局部视觉特征之间的语义相关性的建模能力。
商品数量庞大、品类众多,许多品类之间的区别十分微小
蝶类种类数庞大,人眼难以区分
该方法在训练时不依赖额外标注信息(如特定位置标注),在测试时不增加额外的计算开销即可显著提升分类准确率。该项技术的另外一个主要特点是在新增加非常少量参数的情况下就可以较大提升分类模型性能,且已经被证明可以有效应用到包括ResNet, ResNeXT, SENet, VGGNet在内的多种主流分类模型。该研究成果的相关论文《Destruction and Construction Learning for Fine-grained Image Recognition》已经被CVPR2019会议录用。
未来落地应用方向:
众所周知,商品识别技术被认为是线上、线下智能零售的重要基础。本学术比赛中所使用的图像分类技术将有望在近期应用到京东拍照购商品识别,以及京东Circle-K商品自动结算台中,从而进一步发挥京东AI研究院的技术优势,助力产品性能提升。
人体解析
在CVPR 2019 LIP 全球竞赛中,京东AI研究院还在多人人体解析比赛中获得第二名,这也是在2018年获得LIP单人及多人姿态估计赛道两项第一后,持续在排名榜上保持技术领先的竞争力。
多人人体解析竞赛单元的任务是分割图片中不同实例人体的19个身体部位及着装(如脸、外套、手臂等)。
京东AI研究院在多人人体解析竞赛排名第二
针对人体解析任务中类别易混淆、目标类别小、遮挡严重、姿势和视角多样等挑战,京东AI研究院提出了BraidNet神经网络模型,有效融合高低分辨率特征图,输出高精度的分割结果。此外,还提出了基于度量学习的Pairwise Hard Region Embedding训练策略,有效的区分易混淆类别。最终,融合了DeepLab、HRNet等经典分割模型,获得了多人人体解析竞赛单元的亚军。
未来落地应用方向:
人体解析任务在搭配购、拍照购、时尚推荐、虚拟试衣等应用中具有非常重要的意义,为这些应用提供基础算法。
京东AI研究院CVPR 2019论文精选
京东AI研究院论文Poster受到热烈追捧
《ScratchDet: Exploring to Train Single-Shot Object Detectors from Scratch》这篇入选CVPR 2019的Oral论文,从优化的角度出发,通过实验解释了梯度稳定手段之一的BatchNorm是如何帮助随机初始化训练检测器,进而结合了ResNet与VGGNet来加强对小物体的检测。然后分析其他几篇做过随机初始化训练检测器的论文,通过实验细节总结出随机初始化训练检测器的必要条件。
在物体检测任务中,通常会使用在 ImageNet 分类数据集上预训练好的分类模型来进行检测任务的微调。然而这样做会有一些限制:
(1)限制了用于特征提取的网络结构,检测任务更关注小物体,而分类任务所涉及的网络绝大多数没有关注到小物体。
(2)分类与检测是不同的任务:ImageNet 分类数据集是单图单物体,而常见的检测数据集是多图多物体。
为此,通过找到一种能够不使用预训练模型来随机初始化训练检测器的方法,同时保证训练稳定收敛,检测结果和使用预训练模型相似。通过大量实验发现,批归一化方法能够使检测任务的优化空间更加平滑,梯度更加稳定,从而可以使用更大的步长来进行训练迭代,最终使随机初始化训练能够稳定收敛并且有较好的结果。在此之上,我们可以任意改动特征提取网络来设计适用于小物体检测的结构。我们分析了 VGGNet 与 ResNet 在 SSD300 检测框架上的性能差异,得出了网络第一层的下采样步长对于小物体检测非常关键。如果直接对原图进行下采样,会损失许多小物体的位置信息。
因此我们设计了 Root-ResNet,结合 VGGNet 与 ResNet 的优点,取消第一层的下采样步长。最终 Root-ResNet 基于 SSD300 框架,在 PASCAL VOC 2007 与 2012,MS COCO 数据集上都取得了较好的结果,尤其是在小物体检测上。
京东AI研究院全部被接受论文列表如下:
ScratchDet: Exploring to Train Single-Shot Object Detectors from Scratch
Social Relation Recognition from Videos via Multi-scale Spatial-Temporal Reasoning
Object-driven Text-to-Image Synthesis via Adversarial Training
A Dataset and Benchmark for Large-scale Multi-modal Face Anti-Spoofing
Destruction and Construction Learning for Fine-grained Image Recognition
Unsupervised Person Image Generation with Semantic Parsing Transformation
Gaussian Temporal Awareness Networks for Action Localization
Learning Spatio-Temporal Representation with Local and Global Diffusion
Exploring Object Relation in Mean Teacher for Cross-Domain Detection
Customizable Architecture Search for Semantic Segmentation
Pointing Novel Objects in Image Captioning
Transferrable Prototypical Networks for Unsupervised Domain Adaptation