百度研究院RAL团队刷新nuScenes三维目标检测公开挑战赛成绩 彰显自动驾驶技术实力
随着自动驾驶技术在不同场景下的持续落地,目标检测作为其中的一项核心模块,对检测算法的精度和稳定性要求越来越高。近日,在国际机器人技术与自动化会议(ICRA 2021)举办的第四届nuScenes三维目标检测挑战赛中,来自百度研究院的机器人与自动驾驶实验室(RAL)团队在三维物体检测任务的多项评价指标中荣获第一,并将关键指标nuScenes Detection Score (NDS)从上一届的71.4%提升至74.9%,刷新了三维目标检测比赛成绩。
ICRA2021 nuScenes三维物体检测挑战赛官方排行榜
榜单地址:https://www.nuscenes.org/object-detection?externalData=all&mapData=all&modalities=Any
第四届nuScenes目标检测挑战赛吸引了来自全球各地的多支参赛队伍,不仅有百度、华为、滴滴等知名企业,还涵盖了德克萨斯大学奥斯汀分校、上海交通大学、中国 科技 大学、哈尔滨工程大学等国内外重点高校。
本届挑战赛使用的nuScenes[1]数据集是自动驾驶目标检测领域中最流行的公开数据集之一,集成了多种传感器(如相机,LiDAR, Radar等),提供了包含二维、三维物体标注、点云分割、高精地图等丰富的标注信息。数据集整体共包含1000个场景、140万帧图像、39万帧激光雷达点云数据、23个物体类别、140万个三维标注框,数据规模和难度远超之前的自动驾驶数据集KITTI。
百度研究院的机器人与自动驾驶实验室(RAL)团队在比赛中提出了一种多模态和多任务的信息融合框架FusionPainting[3] ,并且结合多模型融合等技术,推出了CenterPoint-Fusion的技术方案,将评价的关键指标NDS从上一届冠军的71.4%提升至74.9%,全类平均正确率(mean Average Precision)从上一届冠军的67.1%提升至72.4%。凭借本次挑战赛中多个评测指标第一的优异成绩,百度在自动驾驶领域的技术实力再次彰显。
C enterPoint - Fusion算法优势何在?
激光雷达(LiDAR)可以直接以三维点云的形式提供周围场景的深度信息,因此广泛的应用于自动驾驶的感知模块中。但是相比于图像数据,激光点云具有密度稀疏,纹理信息不丰富的缺点,因此在检测任务中对于物体的类别分辨往往不准确。
利用相机和Lidar之间的标定参数,PointPainting[2]将图像的语义信息附加到点云上,再利用融合的点云信息进行物体检测,能有效的提升检测的精度。但是由于图像分割器的特征图尺寸大小的限制,分割结果在物体的边界上有模糊效应,再反投影到3D点云上时会造成物体边界的点云类别信息不准确,从而影响最终检测的效果。
基于多模态自适应融合的FusionPainting流程图
相比于二维图像分割有物体边界模糊的缺点,直接在三维点云上进行分割却能得到清晰的物体边界。为了有效的解决这种边界模糊的问题,百度提出了融合二维图像分割与三维点云分割结果的FusionPainting框架[3]。对于每一个三维点,既通过二维图像分割获得语义信息,又通过三维点云分割获得语义信息,最终通过一个自适应的注意力模块来对两种信息进行有效的融合。融合后的点云可以作为任何三维物体检测器的输入,从而最终得到三维物体检测结果。
在此框架的基础上,百度进一步添加了多模型融合、半监督学习、测试阶段数据增强等技术,充分发挥多模态和多模型的作用,进一步提升了目标检测的效果。
nuScene数据集三维物体检测检测效果示例,其中不同的颜色代表不同类别的物体
本次在nuScenes三维目标检测挑战赛中夺冠的百度研究院机器人与自动驾驶实验室,在自动驾驶感知和机器人领域有着丰富的技术积累和成果输出,研究成果发表在CVPR、ICCV、ECCV、NeurIPS、AAAI、ICRA 与IROS等顶级国际学术会议和《Science Robotics》,《IEEE T-PAMI》、《IEEE T-IP》、《IEEE T-ITS》、《SAGE IJRR》等顶级期刊上。
百度布局自动驾驶以来,不仅在自动驾驶技术和智能驾驶领域市场占据了先发优势,并通过持续深耕,在技术创新和应用落地上也取得了令人瞩目的成就。在自动驾驶这场改变人类轨迹的长跑中,百度还将继续技术创新,做这条道路上坚定的领跑者。
参考文献:
Caesar, Holger and Bankiti, Varun and Lang, Alex H and Vora, Sourabh and Liong, Venice Erin and Xu, Qiang and Krishnan, Anush and Pan, Yu and Baldan, Giancarlo and Beijbom, Oscar. nuscenes: A multimodal dataset for autonomous driving. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 11621-11631.
Vora, Sourabh and Lang, Alex H and Helou, Bassam and Beijbom, Oscar. Pointpainting: Sequential fusion for 3d object detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 4604-4612.
Shaoqing Xu , Dingfu Zhou, Jin Fang, Junbo Yin, Bin Zhou and Liangjun Zhang. FusionPainting: Multimodal Fusion with Adaptive Attention for 3D Object Detection. Accepted by IEEE International Conference on Intelligent Transportation Systems (ITSC), 2021.