Momenta创始人曹旭东:自动驾驶的难点和重点是这个
解决安全问题耗资巨大
高安全性意味着低事故率。一个系统做到很低的事故率,通常要做两件事情,一个是发现问题,一个是解决问题。
开始时,由于系统的问题非常多,主要精力在解决问题,但是随着事故率逐渐降低,发现问题变得越来越难。据统计,全球来看,对于人类司机,一亿公里发生致命事故1~3起。对于无人驾驶,我们希望比人更安全,最好致命事故率低一个量级,做到十亿公里一起致命性事故。统计上,要达到足够置信度,需要多次重复实验,最好一百次以上。
这意味着一套比人更加安全的无人驾驶的系统需要测试的总里程达到1000亿公里。按照一辆车一年10万公里总里程计算。我们需要100万辆车,一整年的时间,收集无人驾驶数据和测试,才能够保证无人驾驶所需的安全性。现在Google和百度的无人车成本都在百万人民币量级,乘以100万辆车这个巨大的基数,对于任 何一 家公司而言,都是一个天文数字。
通过模拟和众包来克服
无人车大规模数据收集和测试的巨大成本主要来源于两方面:一方面是需要海量的测试车辆,另一方面是 高昂 的单车成本。
针对这两方面的成本,我们有两种互补的解决方案: 第一种解决方案是无人驾驶模拟;第二种解决方案是众包数据收集和测试。
无人驾驶模拟可以通过算法生成感知和决策数据,减少数据收集和测试车辆数量,降低研发成本。当然,无人驾驶模拟也存在不足:
第一,模拟生成的感知数据和真实的数据存在差异,实际中,还是以真实数据为主,生成数据为辅。
第二,模拟的规则是人制定的。很多失败的场景恰恰是人思考的盲点,单纯通过模拟并不能发现。
总结来说,虽然模拟可以降低数据收集和测试车辆的数量,但是我们仍然需要收集真实数据,用大量的车做真实测试。
车的成本主要由三部分构成:设备成本,造车成本,运营成本。运营成本就是驾驶员开着车采数据和做测试的成本。设备成本方面,我们可以发挥算法优势,通过多摄像头等廉价设备实现无人驾驶。摄像头是所有感知设备中信息量最大的,需要人脑水平的强人工智能,才能从间接视频数据中提取出无人驾驶所需要的直接数据。激光雷达、高精GPS和IMU长期看都有降价空间,我们的技术方案不排除任何感知设备,价格合理,就会融合进来。
造车成本和运营成本已经优化了上百年,很难降低。因此,我们设想直接利用现有道路上已有的运营车辆,不需要造车、改车、控制车,以一种零负担、零危险的方式实现众包测试和数据收集,这是个非常困难的问题,需要非常深厚的算法积淀和原创能力。
无人驾驶的向导——高精度地图
高精度地图是一个宽泛的概念,需要达到两方面的高精度,分别是地标位置的高精度和本车定位的高精度。
地标位置的高精度。 高精地图由很多类地标构成,比如地面各种道路标线,地上各种交通标志等,地标的定义现在还没有明确的标准,不同厂商从自己产品和技术需求出发,有不同的定义方式。
本车定位的高精度。 高精定位有三种方式:第一种是卫星定位。多基站+差分GPS在开阔区域可以做到厘米级精度,但是城市中因为多路径效应,精度只有米;第二种是匹配定位,这种方式和人很像,观察 周围 环境或者地标,在记忆地图中搜索,匹配定位。结合GPS限定搜索范围,可以做到快速准确匹配。第三种是积分定位。IMU或者视觉里程计。短时间内精确,长时间有累积误差。这三种方式各有优缺点,结合起来可以做到低成本、高精度、高可靠性。
高精度地图是视觉的延伸和增强,之于无人驾驶是必须的。举个例子,多车道弯道行车时,因为路旁障碍物的遮挡,车载传感器感知不到拐弯之后的道路情况,导致拐弯之后的某一车道上发生车祸。 一旦有了高精地图的车道级定位和实时路况更新,就能提前减速并变换到到非车祸车道,杜绝事故的发生 。 再举一个例子:通过视觉,我们可以识别当前在第几车道,通过高精度地图定位,我们也可以知道当前在第几车道,两种不同方式互相校验,可以达到更高的安全性。总结来说,高精地图可以使无人车看得更远,看得更准。
高精地图对于自动驾驶整体解决方案研发的价值非常高,这一点却被很多人忽视。分为三个方面:决策,测试,V2E。
第一方面,无人驾驶决策。 本质上,驾驶决策学习的是道路环境到驾驶行为的映射,也就是这种情况应该怎么开,那种情况应该怎么开。
第二方面,无人驾驶测试。 测试,找出问题,非常重要,也极具挑战。当无人驾驶算法接近人类驾驶的安全性时,需要一千辆车测试一年的时间才有可能发现问题。
第三方面,V2E。 V2E是指通过车辆和道路通信实现无人驾驶,可以大大降低无人驾驶的难度,提高安全性。
视觉高精度地图的实现
视觉高精度地图的实现技术,不是SLAM也不是SFM,这些方法都不适用。 要建真正可用的视觉高精地图,需要从第一原理出发重新设计整个算法。 我们构建高精地图的第一原理是:多张图像存在视差,利用点的对应关系,可以从2D点恢复出3D点。人眼双目视觉获得深度也是这一原理。从基本原理出发,建立高精地图,需要创造性地解决三方面的问题:
● 图像部分。 我们的方法是定义道路标线、标牌等地标上的点作为语义点,通过深度学习和数据驱动的监督训练得到模型,可以准确检测和识别语义点,解决检测不到、匹配错误的问题。
● 几何部分。 通过众包间接实现海量摄像头测量效果,不同车辆,不同时间,经过同一地标,即使光照视角不同,我们也可以通过语义点模型把所有车辆拍摄到的同一语义点关联起来,这相当于间接实现了多摄像头测距的效果。我们知道,视觉测量中,摄像头越多、视差覆盖越全,测量精度就越高。我们实验验证,随着众包车次的增加,真实3D点位置估计的准确性有量级上的提升。
● GPS部分 。 给每个语义点精确的GPS坐标,我们有几方面的考虑:
(1)让高精地图通用。GPS坐标是地图的通用语言,给每个语义点赋予GPS坐标,便于他人使用。
(2)消除累积误差。单纯使用几 何方 法构建局部地图,会有累积误差。结合GPS,可以解决这个问题。
(3)消除局部地图歧义性。当局部地图有重合或者语义点缺失的时候,确定局部地图坐标系很麻烦,但全局GPS坐标系没有这个问题。