百度智能云-数据众包闵楠:构建高质量智能驾驶数据集,为自动驾驶的进步提供“燃料”
雷锋网新智驾按:数据是推动人工智能发展的重要基础。对于自动驾驶领域而言,数据也是推动自动驾驶进一步发展的重要“燃料”。
尤其是在中国复杂的道路情况下,感知技术的进步不能完全依赖算法的迭代或技术革新来解决。在这种情况下,经过规范标注带有丰富语义信息的数据,能够使得自动驾驶的算法更好地理解和识别传感器的画面,从而解决相关的问题,促进其快速落地。
数据的重要性不言而喻,当下企业和开发者获得高质量数据,主要通过自建团队或者采取业务外包的形式对数据进行加工和处理。这两种做法在成本和效率都有相应不足。百度智能云-数据众包针对如何构建高质量智能驾驶数据集,走出了区别前两者的道路。
以下内容是根据百度智能云-数据众包标注团队负责人闵楠在2019年AI+智能汽车创新峰会演讲题目《构建高质量智能驾驶数据集》整理而成。
正文:
感知技术是智能驾驶当中的关键一环,尤其是在国内路况比较复杂的情况下,感知技术的突破不能完全通过算法的迭代或者是技术革新来解决。
在这种情况下,经过人工标注的带有丰富语义信息的数据,可以使得算法更好地理解和识别视觉摄像头、激光雷达、毫米波雷达等传感器所传输的画面信息和障碍物信息。
当下,每一个研发团队都面临着一个问题:海量的数据如何高效地从原始数据转化为标注之后带有丰富语义信息的数据。
传感器从真实世界所采集到数据,完成了数据生产的过程。原始数据经过了一定的标定和结构化、非结构化的存储过程后,需要再经过人工标注才能产生出带有标签和语义信息的数据,这样的数据才能够为算法所利用。
相反,如果传感器无法在真实的世界中挖掘到足够多的有用数据,就需要有意生产和收集这样的数据来提升算法的精准度。
从理论层面上说:数据的标注结果越精准,对于算法的运算结果越好。因此数据的采集和标注工作都非常重要。
企业和开发者一般采取两种做法:
-
自建团队。自建团队需要耗费大量的精力来维护自有的标注团队。通常情况下还需要开发甚至长期地维护一个合用的数据标注的工具或者平台。唯有如此,才能长期系统性实现数据标记工作,以及进行时效性数据的补充工作。
-
业务外包。业务外包的模式相对于自建团队也有其难点。当下,自动驾驶的研发选型方案不断进化,对数据标注的专业能力要求不断提升。业界对于标注的需求不断进化:从最原始的2D图像的标注需求,慢慢进化到3D点云的标注需求,到全象素的语义分割,甚至多传感器融合障碍物的标注能力。不断进化的需求都对数据标注团队的能力都提出了很大的挑战。
因此,企业需要不断地研发新的标注工具,甚至是寻找标注能力不断进化的团队。百度智能云-数据众包希望能够给合作伙伴提供一个在成本和效率上都优于上述两种方案的解决方案。
关于百度智能云数据众包
百度智能云-数据众包成立于2011年,目标是为百度内部的研发团队和业务团队提供AI数据的采集和标注服务。
目前,百度智能云-数据众包已经承接了包括百度智能驾驶事业群在内的绝大部分团队的数据标注需求。2017年下半年,百度智能云-数据众包正式对外开放标注的经验和能力,成为综合性训练数据服务平台。
百度智能云-数据众包通过定制化的流程管理、质量管理、资源/人员管理能够高效地分发和管理大规模数据的数据标注任务,同时保证数据的质量和数据安全。
百度智能云-数据众包在智能驾驶行业上的应用
智能驾驶的传感器的数据输出一般分为以下三种类型:
-
第一种是障碍物的检测、跟踪以及多传感器下障碍物融合。
百度智能云-数据众包,从2015年开始从事智能驾驶的障碍物标注,除了具备最基本的单目和双目摄像头障碍物标注、鱼眼摄像头和环视摄像头的障碍物标注能力之外;百度智能云-数据众包还具备了从4线到128线等线束不同的激光雷达点云数据的标注能力,同时还具备多传感器融合障碍物的标注能力,包括激光雷达和摄像头融合、激光雷达和毫米波雷达等传感器融合障碍物的标注能力;在V2X的数据标注方面,百度智能云数据众包团队也具备相关的标注经验。
-
第二种传感器所输出的车外的环境感知以及车道信息。
在车外环境感知以及车道信息方面,百度智能云-数据众包的数据标注平台也累积了丰富的标注方案,处理了庞大的车道检测、车位识别、路面信息、交通标识、定位元素、可行驶区域和语义分割等类型的数据(包含Apollo平台室外场景集合)。
-
第三种是对车内环境的感知和对驾驶员驾驶意愿的交互。
车内环境的感知,百度智能云-数据众包具备非常典型的疲劳驾驶的行为检测能力,具备包括驾驶员的面部的关键点标注和面部表情检测,以及客运车辆当中,乘客的位置感知等标注能力。
关于产能规模
百度和山西省政府合作,在太原建立了一个巨大的标注中心,结合经验丰富的线上众包人力,百度智能云-数据众包的标注团队规模超过5000人,障碍物和车道线等2D数据的每日产能峰值达到4万帧左右、点云障碍物标注量在1万帧左右。
大规模的生产节奏下,如何保证标注人员对标注规则的理解和执行是一致、并且保证数据质量,是一个具有挑战性的问题。百度智能云-数据众包在这个问题上进行了不断的做摸索和迭代。
首先百度智能云-数据众包建立对标注员和审核人员培训和考试等标准流程。此外,在标注工具里,百度智能云-数据众包也集成了智能算法,比如连续帧的标注算法可以根据上一帧人工标注的障碍物类别,智能地预测和标注下一帧将会出现障碍物类别。
智能算法能够极大地解放标注人员的压力,标注人员只需要在算法识别的基础上进行一些修整,这样能够极大地降低在标注过程中人工的参与和主观判断产生的引入人工错误的可能性。
百度智能云-数据众包标注完每一条数据,都会经过一个人工的审核和自动化的脚本检测过程,这样能够有效保证标注结果符合标注规则。
此外,数据安全也是百度智能云-数据众包非常重视的方面。除了标准的合同条款以及保密协议之外、还有技术上的手段进行保证——百度智能云-数据众包会进行任务封装、数据加密、专线传输、专利的反爬。
对于对数据安全有特殊要求的客户,百度智能云-数据众包准备了私有化部署的标注平台、专属的数据标注团队、和封闭的标注场地,确保数据的安全。
多种的方案能够满足对数据安全有不同级别需求的客户。在整个项目进行过程中,百度智能云-数据众包的项目经理和商务经理会进行全程的对接。一般情况客户只需要提供标注规则和待标注数据,在项目结束后对标注结果进行验收即可。
总结
数据是人工智能的燃料,数据在智能驾驶领域的重要性不容置疑的。绝大部分企业对数据是非常重视的,但都共同面临着缺乏有效获得大量且高质量数据渠道的困境。因此,针对国内路况较为复杂和国内智能驾驶起步稍晚的现状,百度智能云-数据众包通过多年的经验,以及多年建立起来的高效的管理方案以及专业的软硬件设施,能够不断地为智能驾驶提出新的思路。
雷锋网原创文章,未经雷锋网 (公众号:雷锋网) 授权禁止转载。详情见转载须知。
。