京东探索稀疏三维空间点云Global Context论文入选NeurIPS2020

砍柴网 • 4年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

近日，第34届神经信息处理系统大会（Conference on Neural Information Processing Systems，简称NeurIPS，NIPS）在线上召开。作为全球顶级的机器学习和计算神经科学会议，今年的NIPS依然受到了学者们的高度关注，甚至由于其线上开放的特性缓解了往年抢票难的问题，而将获得更多的“听众”。

据悉，今年NeurIPS稿件录取率为20.09%，创下历史新低。在如此严苛的录取标准之下，京东AI深度学习与语音语义实验室提交的探索稀疏3D点云Global Context的论文《Group Contextual Encoding for 3D Point Clouds》成功入选。今年以来，京东AI深度学习与语音语义实验室的研究成果频获国际认可，此前还有多篇论文入选国际语音和语言处理顶会比如ACL 2020、AAAI 2020、INTERSPEECH 2020等。

Global Context对视觉感知至关重要，可以根据语义信息提高物体识别的准确率，但目前针对3D点云的Global Context的研究还不够充分，特别是在三维空间的情况下，数据呈现高维、稀疏的特点，对传统深度学习算法提出了挑战。因此，京东AI研究院基于其研究实习生计划与东京大学合作了《Group Contextual Encoding for 3D Point Clouds》，针对这一研究领域提出了Group Contextual Encoding的Global Context学习方法。

京东探索稀疏三维空间点云Global Context论文入选NeurIPS2020

从目前已有3D点云Global Context的研究成果来看，比如LG-PointNet++ 【1】，其复杂度为，N是输入点的个数。当场景复杂时，输入点数较多会导致耗费相当大的算力。Contextual Encoding Layer【2】的复杂度是，是一种有效率的方法，K是该方法里code word数目。但是点云数据稀疏导致的过拟合现象（overfitting），会影响性能的提升，导致在ScanNet，SUN-RGBD数据集上3D检测性能随着Code word数目K的增长，性能却很快就饱和不再增长。虽然目前有一些深度补全的算法可以解决数据稀疏这个问题，但是这些算法都存在结构复杂、耗费计算资源的问题，因此，京东AI研究院决定探索简单有效的方法。

首先要解决数据的稀疏问题。通过把特征通道分组，从而获得更多的等效数据，如图1所示，如果把通道分成G组特征子向量，数据就相对应增广了G倍。再将分组后的特征子向量通过Encoding layer得到Global context，从而有利于在分组后的特征子空间学习全局上下文，然后通过channel attention的形式作用于分组后的特征。最后通过Concat操作恢复为原特征的尺寸。如此操作既解决了数据的稀疏问题，又解决算法结构复杂、算力耗费巨大的问题。

京东探索稀疏三维空间点云Global Context论文入选NeurIPS2020

图1：Group Contextual Encoding方法图。

随后，京东AI研究院又将这种方法在多个3D数集上进行验证，不仅证实这种方法简单有效，还刷新了SOTA方法的性能。将这种方法应用在PointNet++ Backbone上，并部署到VoteNet模型。如表1所示，在ScanNet数据集以mAP@0.25指标测评时，该方法领先VoteNet 【3】 2.2mAP，增幅已然明显，但更令人惊喜的是，在更加严格的mAP@0.5 的指标下，如表2所示，该方法领先Waymo、Facebook AI Research以及Stanford大学提出的 VoteNet高达6.57 mAP，可视化结果如图2所示。

表1：ScanNet数据集mAP@0.25评测指标的结果。

京东探索稀疏三维空间点云Global Context论文入选NeurIPS2020

表2：ScanNet数据集mAP@0.5评测指标的结果。

图2：ScanNet数据集的结果可视图。在SUN-RGBD数据集，我们的方法也领先VoteNet 3mAP，具体定量以及定性结果如表3和图3所示。

表3：SUN-RGBD数据集mAP@0.25评测指标的结果.

图3：SUN-RGBD数据集的结果可视图。

京东自2017年开始全面向技术转型，用技术重塑了京东的生态系统，逐渐突破零售边界，拓展至数字科技、物流、健康等众多领域。一直以来，消费者们更多的在购物、物流等环节体验到京东技术的进步，如今，京东在人工智能领域的长足进展不仅获得学术界的认可，也逐渐被更多的用户所知悉，京东的智能语音技术也已经在智能外呼机器人、客服语音机器人等电话交互场景中实现成熟应用，此次提出的Group Contextual Encoding方法也可以应用在下游的AR（增强现实）、MR（混合现实）以及机器人，自动驾驶等领域，推动这些领域的发展。京东技术将不仅赋能金融、医疗、教育、健康等行业，还将在更多领域为用户提供便利。

参考文献

【1】Wang, Xu, Jingming He, and Lin Ma. "Exploiting Local and Global Structure for Point Cloud Semantic Segmentation with Contextual Point Representations." Advances in Neural Information Processing Systems. 2019.

【2】Zhang, Hang, et al. "Context encoding for semantic segmentation." Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2018.

【3】Qi, Charles R., et al. "Deep hough voting for 3d object detection in point clouds." Proceedings of the IEEE International Conference on Computer Vision. 2019.