浙江大学钱炜:无人驾驶中的人工智能挑战
雷锋网 (公众号:雷锋网) AI 科技评论编者按:随着人工智能技术的发展,无人驾驶逐渐变得可能。虽然人工智能发展给无人驾驶带来了诸多红利,但是该领域依旧存在着一些人工智能技术挑战。
近日,在雷锋网 AI 研习社公开课上,浙江大学计算机科学与技术学院博士钱炜分享了其参与的无人驾驶相关工作。公开课回放视频网址: https://www.mooc.ai/open/course/577=aitechtalkqianwei
钱炜:浙江大学计算机科学与技术学院博士,导师是何晓飞教授。其具有多年机器学习和深度学习研究经验,在人工智能顶级会议 IJCAI 上 发表多篇论文。此外,他还具有丰富的视觉算法研发经验,曾作为核心成员参与参与某明星创业公司的深度学习平台的搭建及算法研发,并作为国内某知名公司无人驾驶团队初始成员参与视觉感知模块的设计与研发。现为飞步科技感知算法负责人。
分享主题: 无人驾驶中的人工智能挑战
分享提纲:
1、无人驾驶的愿景
2、人工智能发展带来的机遇
3、无人驾驶中的挑战
雷锋网 AI 研习社将其分享内容整理如下:
今天跟大家分享无人驾驶中的人工智能挑战。首先介绍一下为什么需要做无人驾驶?
全球平均每分钟就有 2.5 人死于交通事故,在 2015 年全球前十位死亡原因中,只有交通事故是与身体状况无关的,应该有能力避免掉的。具体到交通事故的原因,其中 94% 都与车辆和行驶环境无关,而是由司机的失误造成的,大部分的失误又来源于障碍物的错误识别、驾驶员的失误决策,如果我们给车辆安装 360 度无死角的传感器组合,由计算机程序来识别和决策,驾驶失误的可能性几乎能降到 0。
地面交通工具在不断革新,我们希望无人驾驶汽车能为大家提供一个更安全的环境,将司机从疲劳驾驶的潜在危险中解脱出来。为此 Google 从 2009 年就开始研发无人驾驶汽车,近几年,业界对无人驾驶汽车的投入也越发庞大,大家也觉得无人驾驶技术的落地越来越近了。
我们公司也提供了全栈式的无人驾驶解决方案:
(关于该全栈式的无人驾驶解决方案的讲解,请回看视频 00:01 : 55 处,https://www.mooc.ai/open/course/577=aitechtalkqianwei)
人工智能的发展给无人驾驶带来了不少红利,其中最重要的还是深度学习和智能芯片。
在深度学习出现之前,传统的机器学习方法在面对下面这样的图片是难以判断图片的类别,它会先构造人工特征,比如图像利用颜色和纹理、音频采用音高和响度,文本则采用文本等,将它们输入到浅层神经网络,逻辑回归等判别器来判别结果。构造好的人工特征的好坏很大程度上决定着判别器的判别结果。
为此,研究人员构建了 SIFT 、SURF 等优秀的人工特征,这些特征在 2012 年前确实表现非常好,但不如深度学习的表现。2006 年,Hinton 等人提出深度学习的概念,建立起人脑一样具有深层结构的神经网络,人脑神经元是有层次的,信号一层一层向前传递。比如在图像任务中,深度学习会直接输入原始图像而不是人工构造好的特征,然后模型有层次地抽象特征和表达,最后的高级特征和模型输出会高度相关,能够得到很好的效果。
相较于深层学习,我们将传统的机器学习叫做浅层学习。与浅层学习不同,深度学习能有效利用海量数据,随着训练数据数量的提升,深度学习方法能达到更高的准确率。
如果将深度学习所需的元素当做一架火箭,那数据就是深度学习的燃料,比如 ImageNet 比赛,可获得数百万张图片进行分类;计算力是引擎,几十年前由于大数据的限制,人们无法很好地训练数据,而随着技术的发展以及 GPU 服务器、集群、云计算的出现,数据已经能够支撑大规模的计算,另外随着人才的加入,计算力的更新也日益加快;算法是核心组件,例如 CNN、RNN;平台是基础,例如 Tensorflow, Caffe, Pytorch。
总体而言,深度学习带来了更好的环境感知结果更好的环境特征表达,从而做出更加准确的决策。
深度学习需要非常好的算力,无人驾驶汽车的 CPU+GPU 需要 2000-3000 W,消耗非常惊人的。不过非常幸运的是,现在很多芯片都朝着高性能、低功耗的方向在发展,比如 FPGA 的功耗就比一般的 CPU、GPU 低很多,英伟达之后推出的 TX2,Google 的 TPU 等芯片的功耗更低,算力更强。
为此我们也设计了功耗低于 10w,能满足车载模型所需算力的芯片,来加速无人驾驶汽车的落地。我们首创了深度学习专用 MPV 架构,其除了集成超过 13 亿(全中国人口)纳米级晶体管 (人类头发的 1/3000),能高度并行的数据读写、计算外,还为无人驾驶定制了大型计算模块 。
(关于这一 MPV 架构更详细的讲解,请回看视频 00:09:30 处,https://www.mooc.ai/open/course/577=aitechtalkqianwei)
智能芯片为无人驾驶带来了更低的功耗和更高的算力,在其帮助下,车辆对紧急情况的响应速度比 F-1 赛车手还快,从而大大提高了无人驾驶的安全程度。
尽管人工智能的发展带来了很多帮助,但是无人驾驶中仍然存在很多挑战。我讲一个和大家关系比较紧密但是容易被忽视的问题——对于问题的理解。
下面,为了说明「尽管我们有了很好的深度学习模型,但是这些模型的直接使用仍然不能很好解决我们现实中的问题」这一无人驾驶面临的挑战,我以视觉障碍物检测、视觉车道检测和复杂场景定位为例来进行阐述:
(关于视觉障碍物检测、视觉车道检测和复杂场景定位这三个案例的讲解,请回看视频 00: 11:55 处,https://www.mooc.ai/open/course/577=aitechtalkqianwei)
针对这些挑战,我们采用的方法也很简单——传统 SLAM(simultaneous localization and mapping,也称为 CML (Concurrent Mapping and Localization)方案,它是即时定位与地图构建,或并发建图与定位,是无人驾驶中无人车理解场景结构、获取自身在周围环境中的相对位置的核心技术。我们利用激光雷达、视觉传感器以及所给数据,配合上 GPS 和 IMU 就可以做到厘米级、全天候的复杂场景定位,这在无人驾驶中还是非常重要的。
传统 SLAM 一般使用基于特征点的模式(feature-based),但这种模式并不能很好地适用于无人驾驶场景。
第一,由于场景重复性较大且视觉特征单调,可能出现大量特征点误匹配现象;
第二,受制于光照弱、场景视觉特征贫乏,易于出现大范围无特征点区域;
第三,无人驾驶状况会有大量动态场景,而在动态物体上检测出大量特征点,容易导致整体 SLAM 系统解算精度很差。
基于上面的原因,我们抛弃特征点,而采用基于场景结构化的 SLAM 解决方案,从而显著提高了整套 SLAM 系统在弱视觉特征场景(光照条件差,场景视觉特征单调且大量重复等)中的高精度定位与建图效果。
与传统 SLAM 相比,它有以下优点:
第一,显著规避在动态物体上找到大量视觉特征的问题,保证 SLAM 系统解算精度;
第二,在弱视觉特征区域也以场景结构的形式提取出了丰富的场景特征;
第三,相比较点匹配,结构匹配可以在很大程度上降低误匹配概率。
尽管深度学习在不断发展,让我们觉得视觉识别可以实现语义信息非常充分的高级抽象特征,然而,简单使用这些特征并不能提高 SLAM 的效果,我们需要真正找到问题的痛点来进行处理。
最后介绍一下创新工场等主办的 AI Challenger 2018 全球 AI 挑战赛,在这个比赛中你会使用到非常强的模型、很多的模型融合,并且还能获得从更多角度去理解问题的思维方式。
(关于 AI Challenger 2018 全球 AI 挑战赛的具体介绍,请回看视频 00: 32:41 处, https://www.mooc.ai/open/course/577=aitechtalkqianwei)
以上就是本期嘉宾的全部分享内容。更多公开课视频请到雷锋网AI研习社社区( https://club.leiphone.com/ )观看。关注微信公众号:AI 研习社(okweiwu),可获取最新公开课直播时间预告。
关于 AI Challenger
「AI Challenger 全球 AI 挑战赛」是面向全球人工智能人才的开源数据集和编程竞赛平台。今年的 AI Challenger 2018 由创新工场、搜狗、美团点评、美图联合主办,赛事奖金超过 300 万人民币,另外参赛者还有机会获得联合主办方提供的工作、实习和投资。
AI Challenger 2018 数据集和竞赛已于 8 月 29 日开放,将于 11 月11 日截止,并于 12 月 18-19 日进行竞赛的总决赛答辩和颁奖。赛事具体信息请点击 https://ai.yanxishe.com/page/blogDetail/8792 进行详细了解。
。