DARPA 挑战赛亲历者 Adrian Kaehler :自动驾驶时代的计算机视觉
雷锋网 · 新智驾按:1 月 16 日,由雷锋网 (公众号:雷锋网) · 新智驾主办的 GAIR 硅谷智能驾驶峰会在美国加州 Palo Alto 如期落地。18 位中美顶尖自动驾驶行业嘉宾到场, 7 场主题演讲,2 大圆桌论坛,几乎覆盖了自动驾驶相关的各个话题。 从今天起,我们将陆续放出嘉宾演讲与论坛的精华部分,并将在后续的 《GAIR硅谷智能驾驶峰会》 特辑中送上整场峰会的全部内容。 该系列的第一篇,来自 DARPA 挑战赛亲历者、Silicon Valley Deep Learning Group CEO Adrian Kaehler。
作为自动驾驶领域绝对的老兵, Adrian Kaehler 的职业生涯介绍理所自然更长一些,他是 Giant.AI 和非营利组织 Silicon Valley Deep Learning Group 的创始人兼 CEO,担任 Applied Minds 副总裁和机器人与机器学习负责人 8 年,并曾在伊朗和阿富汗战争期间为 JIEDDO 开发自动驾驶车辆。 2005 年,斯坦福大学的车队夺得 DARPA 挑战赛冠军,Adrian 便在其中负责计算机视觉系统的开发。
Adrian 的演讲基本以 DARPA 挑战赛为间隔,前半部分,他主要介绍了自动驾驶技术发展的几个重要节点与表现,包括 2005 年和 2007 年的 DARPA 挑战赛,计算机视觉、深度神经网络的发展,之后,Adrian 则重点谈了后 DARPA 时期自动驾驶的发展。
DARPA 之前的自动驾驶
关于自动驾驶的发展起源,Adrian 直接追溯到了 15 世纪。1478 年,达·芬奇(Leonardo Da Vinci)设计出了预编程发条马车的草图,如果研发成功,这辆车就可由一个大型螺旋型发条弹簧驱动,按照预定路线实现车辆的自动驾驶。
90 年代,斯坦福的人工智能实验车(Stanford Cart)率先使用人工智能和机器视觉进行了陌生环境的导航。当时,激光雷达非常昂贵,并没有在自动驾驶中发挥突出作用。多数研究者还是倾向于依靠摄像头和计算机视觉方案完成车辆的自动驾驶,而自动驾驶的应用也主要集中在军事领域。
转折点出现在 DARPA 挑战赛之后。
斯坦福大学的参赛车“Stanley”通过视觉进行道路识别,通过激光雷达检测短距离内的道路,并以此预测前方更远距离的路况。当时,一些其它车队也在使用视觉方案,Oshkosh Defense 的“TerraMax ”就用了激光雷达和立体视觉进行障碍物识别。
2007 年 DARPA 城市挑战赛中,车辆需要展示停车、路径跟踪和车辆交互等功能,车辆视觉变得更为重要,也更广泛地出现在参赛车辆中。
我们都知道,成立于 1999 年的 Mobileye 主要聚焦于 ADAS 系统的视觉开发。他们的技术被用在了 DARPA 城市挑战赛卡耐基梅隆大学的参赛车上,并且取得了非常好的成绩。Mobileye 的早期系统可以提供车道线检测、车道偏离预警、障碍物识别和车距检测功能。2007 年,他们的产品已经用在很多商用车辆上,包括凯迪拉克的 STS 和 DTS。
自动驾驶的第二阶段
2009 年,谷歌开始了自动驾驶研发,他们招揽了 DARPA 挑战赛的很多重要参与者,包括斯坦福的大量人才,而后者不依赖视觉的传统也在谷歌的自动驾驶汽车上得到了延续。不过,在很多任务执行中,摄像头仍是不可或缺的因素。
现在,激光雷达已经成为自动驾驶技术的主流,不过,仍然可以看到很多玩家使用计算机视觉方案。这之中,高昂的成本是很多人对激光雷达望而却步的重要原因。
高校的技术研究已经有了很大发展。DARPA 挑战赛之后这些年,很多研究者整合比赛中的经验,将其中的技术转化成更坚实的理论基础。在计算机视觉方面,类似 Dalal 和 Triggs “HOG”行人检测的重要算法得到改善,新技术发展,车辆识别自行车或其它物体的可靠性也在增加。
重要的数据集也在发展。2012 年,KITTI 数据集发布,它涵盖了 GPS RTK 惯性导航系统、立体摄像头、激光雷达的探测数据。惯性导航系统和激光雷达可以建立一个地面实况数据集,评估视觉算法的表现。专业的标注者则标定出重要物体(车辆、行人、自行车等)的边界框和目标物等级。这些技术都是发展立体系统、光流、三维重构、三维物体检测、三维目标追踪的重要基础。
KITTI 这类数据集的出现推动新算法更快发展,帮助其进行更高效的比对,现在很多从业者就在努力解决这方面的问题。
2012 年,“AlexNet”在一项重要的计算机视觉基准任务上战胜了其它方法,让神经网络重新回归自动驾驶的版图。并且,深度神经网络几乎打开了解决各种问题的大门,在依赖计算机视觉的年代,这些问题都被认为在几十年之内很难找到解决方案。同时,视觉方案的经济性也开始得到前所未有的重视。一个摄像头最低只要 1 美元,但一个 64 线的激光雷达却要 7 万美金。
计算机视觉和机器学习迅速探索着这项技术的边界,并不断得到新的突破,很多原本认为应该在很多年后才能取得的成果开始定期出现。
下一个主题是 SegNet 分割和 Remapping。原始的 SegNet 主要被用于分割,深度神经网络从场景中学习,之后再对其进行解释。
YOLO 算法目标识别也是非常重要的技术,可以识别图像中的目标,在分类的同时预测边界框。它应用了深度神经网络与传统的概率统计技术,最新版本 YOLO-9k 可以识别 9000 种不同目标物。
视觉的探索没有终点。深度神经网络为很多问题提供了解决方法,Mask R-CNN 的先进算法也在提升,它将对象查找与每个对象的像素标记结合在一起,还可用于人体姿态的评估。
最后,Adrian 表示,虽然自动驾驶的问题很难在短时间内全部克服,但许多重要环节已经得到很好的解决,而这些已足够支撑这项技术投入市场。在其一直关注的计算机视觉方面,他也给出了自己的多项建议,这些建议,以及 Adrian 的 40 分钟演讲全文,雷锋网 · 新智驾都将在后续的 《GAIR硅谷智能驾驶峰会》 特辑中完整送上。
。