小鹏汽车郭彦东：解析智能感知的车载量产之路

亿欧网 • 5年前扫码分享

12月6-8日，为期三天的“2019世界创新者年会”在北京顺利举办。本次大会由中国企业联合会指导，由亿欧·EqualOcean、工业和信息化科技成果转化联盟联合主办，本次大会以“科创4.0：共建全球化新未来””为主题，集结了来自美国、英国、印度、新加坡、印尼、尼日利亚、巴西、日本、以色列等十余个国家或地区的6000名创新者，总结2019年世界科技与产业创新的成果，预测2020年最新创新趋势。

其中，“ 科学企业家 ”论坛邀请了华为诺亚方舟实验室计算视觉首席科学家田奇教授、小鹏汽车首席科学家郭彦东博士、氪信科技创始人兼CEO朱明杰博士、文安智能创始人陶海教授、魔珐科技创始人兼CEO柴金祥教授、MINIEYE创始人兼CEO刘国清博士、联想创投董事总经理王光熙、达观数据创始人兼CEO陈运文博士、踏歌智行创始人兼首席科学家余贵珍教授，共同探讨和分享作为科学家创业者在创业路上的收获与感悟，探索科学技术与商业化的结合机会，助推产学研领域协同发展。

其中，小鹏汽车首席科学家郭彦东在大会发表题为《智能感知的车载量产之路》的演讲，他认为：

1、近年来，基于深度学习，人工智能在诸多领域中都取得了突破性的进展。但是自动驾驶技术在量产落地实际应用中有遇到长尾效应的挑战。需要“科学企业家”，利用有限的资源，高效的并有优先级的解决可能有 “无限多种”现实场景的实际问题。

2、自动驾驶技术落地离不开算法、数据、与硬件平台。在“源动力”数据方面，为了兼顾数据量，场景覆盖度，成本，以及真实度，小鹏汽车有机整合了互联网大数据、仿真数据、测试车队数据以及本土真实用户的脱敏数据；并合理构建知识图谱。

3、就自动驾驶技术落地路径而言，其基础是感知，核心是人机交互，难点是驾驶主体的切换。“科学企业家”不仅需要推动新技术落地，也需要从落地中提炼新问题。

4、在将人工智能落地到现实场景中时，不仅需要量产为先，快速高效进行新功能落地，更需要通过新功能推动安全驾驶。“科学企业家”需要通过量产正向影响社会驾驶习惯。

以下为演讲实录（有删改）：

今天演讲的内容更多集中在智能汽车自动驾驶领域，比如智能感知在落地时需要应对哪些挑战。

首先简单回顾一下，为什么人工智能这些年这么受关注？我列了几个事件，2014年，在人脸识别的一个被广泛认可的任务（Labeled Faces in the Wild，（LFW））上，Facebook等公司的视觉模型首次超过了人类的表现；2015年，微软研究院研发的神经网络在通用图像分类的经典任务ImageNet上超越了人类的表现； 2016年，谷歌人工智能在下围棋的时候击败人类；同年，微软的深度学习模型在对话语音识别方面首次达到了人类的水平。

人工智能已经在这么多特定领域表现得比人更好了，为什么车不能让机器去开，为什么人工智能落地还有很多挑战？这是我今天和大家分享的重点。

其实人工智能之所以能这么好的表现，主要来自于深度学习技术，大量的训练数据，以及高速并行运算硬件的发展。但是，如果计算机面对一个没有见过的不同的场景时，他在认知方面的推广能力常常逊于人类。以上这些人工智能超越人类的表现的特定任务中，测试用例往往是有限的。比如在人脸识别领域长期被广泛使用的LFW Verification Set，只有6000对图像做比对。从多样性跟真实性来说，跟很多工业中的挑战有一定的差距。比如在智能座舱中的人脸识别问题，在成像波段，遮挡的严重性，极限光照，奇怪姿势，极限曝光等等方面都会有新的挑战，远远超出了LFW中的测试情况。这也是为什么现在有越来越多的新的测试任务被设计、发表，而定义针对指定应用的测试集合非常有必要。

再继续讨论自动驾驶中车外感知的例子。几十年前美国的LIFE杂志就有一篇文章畅想道：“通过车路协同技术和自动驾驶技术，车就不需要司机了”。早在2005年、2007年的第二、第三次Darpa挑战赛上，就已经有多个车队可以完成Darpa设计的任务。然而，在现在头部企业的量产车，仍然停留在辅助驾驶阶段，要求司机用手抓着方向盘，如果司机手不抓方向盘就会从自动驾驶当中退出来，所以很多人在方向盘上面加个橘子等物品，就可以骗过车辆实现脱手。从上面三个侧面，我们看到在文学作品的畅想，科研探索，以及量产落地上，自动驾驶的形态有很大的不同。原因也是在于在科研探索上，对于成本，可覆盖场景，耐久，或者是美观上，与量产落地的考量都有不同。

就自动驾驶覆盖的场景方面，我再来举几个例子。第一个图片是一台加州的油罐车。因为天气很好，油罐车表面光滑，就有很多其他汽车的倒影，如果使用单目视觉技术而不做传感器融合或者立体视觉的话，就很容易有一些误识别是非常危险的；第二个是某个头部企业把一台货运车识别成了云彩，发生了惨案；最边上的是美国农村拍的行人照片，因为行人穿了很奇怪的服装，造成有些识别技术有障碍，因为从来没有见过这样的训练样本。阻碍人工智能赋能自动驾驶困难和挑战来自于长尾分布，每一种情况发生的事件数量很少，但是事件种类却非常多，这样就给人工智能落地带来了最大的挑战。

除此之外，本土化的场景跟自动驾驶技术主要起源的美国本地场景会有很多不同，例子包括一些特殊极端的天气状况、城市内的人车混流、远光灯的使用等。都。另外一个例子是交通牌。中国的交通牌安装、摆放方式跟美国有很多不同。此外，交通牌的内容、形状也有不同的地方。中文的交通牌，需要中文的OCR模型来识别。为了应对这些挑战，我们设计了能够识别所有中国国家标准定义的交通标志的模型，巧妙的把多种类型的模型（分类，识别等）融合在一个完整的框架中去。

正式因为以上挑战的存在，我们把自动驾驶分了级，从L0级到L5级。很多人也都知道L0到L3级的时候都需要人，L3虽然可以解放双手解放双脚，但还需要把注意力集中在路面，只有L4级人才可以不看路面，驾驶的主体从人切换到车。近期，量产L3普遍进入了攻坚阶段，并且能够通过L3的部署，大量得到用户使用反馈，拓宽使用场景数据，实现数据闭环。这也是技术到量产的必由之路，分阶段实现，最后达成目标。

在“源动力”数据方面，为了兼顾数据量，场景覆盖度，成本，以及真实度，小鹏汽车有机整合了互联网大数据、仿真数据、测试车队数据以及本土真实用户的脱敏数据；并合理构建知识图谱。第一，互联网大数据，最近20年人类在努力把所有事情都数字化，都放在互联网上，互联网本身就提供了大量数据；第二，仿真数据；第三，自有车队数据；第四，本土用户的脱敏数据。

我们在仿真数据生成这个方向上做了很多的努力。第一个例子是为了DMS（驾驶员分神预警系统）生成训练数据。因为驾驶员注意力识别中很重要的一个模块就是从人脸图像/视频中估计人的头部姿态（另一个是眼球方向）。然而，在采集头部姿态的训练数据时，我们很难要求被采集人很精确的把脑袋转到某一个指定的角度。我们通过视觉生成技术（3D reconstruction + GAN），可以从一张人脸图片出发，精确的生成多个特定头部姿态的人脸图像，从而得到大量的训练数据。此外，仿真数据的生成还包括一个相对比较新的一个技术就是跨模态数据生成。为了让智能驾舱功能在不同的光照条件下都可用，需要采集大量近红外的图像做训练。但是近红外外采集成本比较大，因此我们可以通过一些技术，把更常见的RGB图象转化为近红外的图像来低成本的获得大量训练数据。

第二个例子是识别车外环境识别。

因为很多汽车的特殊场景是比较难采集的：在真实场景下，我们很难要求真实车辆严格按照我们的方式行驶、摆放，甚至有些场景是带有危险性的。为了解决这个问题，我们就可以生成一些汽车放在路面上。需要注意的是路面的图像生成也是比较困难的，包括路面纹理、磨损数目、特殊光照等。因为路面有多种多样变化。大家可以看到路面的生成和真实的分布相差比较远。但是车辆的分布相对集中，生成技术比较成熟。所以我们在需要生成车外环境数据时候，路面的图像是真实的，再在上面生成仿真出来的车辆，用这样一种方式训练数据，提高训练数据的场景丰富度。

在真实路测方面，2019年Waymo的测试公里数达到2000万公里，在所有自动驾驶技术公司里面排名第一。做为量产车交付企业，我们采用了影子模式来丰富测试，把模型部署在交付车辆上来收集采集数据来做生产验证，这能帮助我们发现非常多之前想象不到的例子。

比如智能雨刮功能，我们不需要像传统车一样搭载一个传感器，只要用车的摄像头就能看到有没有雨滴，这样可以减少一个额外传感器的成本。第二个好处自动驾驶像守门员一样能够告诉你摄像头成像的效果好不好，是不是符合自动驾驶的工况。特斯拉前一段时间发推特把这个作为非常重要的工作来做，但是这样的功能遇到的场景束缚非常多，雨滴也有很多的不规则性。右边的图可以看到马赛克墙砖和雨滴非常像，包括落叶也会和雨滴比较像，这样的情况在实验室做，不真实的去跑，人是想象不出来的。只有通过大量量产车验证，才能够把人想象不出来的案例收集回来，在用户使用之前把这些问题都解决掉。依托于智能雨刷功能，我们搭建了自动驾驶整体的数据闭环系统。

此外，做落地一定要落到车上去，车能够选择的芯片种类是小于手机的，根据不同车配置的成本和定位的不同，聚焦在三款芯片上：TI、Qualcomm、Nvidia。其中，我们选择了一款低成本的TI芯片，算力比较弱。但是我们通过模型优化和定点化技术，就可以在10几个M的空间里面放进去几十个模型，并且能够保持较高的精度。

实际上，模型的优化和量化，不仅仅是优化量化本身，实际上是根据车不同的芯片种类来有针对性的量化，在量产车上跑得快的算法才是好算法。其中核心工作就是利用非常有限的资源，实现高效创新和迭代，解决无线的问题，实际的生产生活中，人工智能要实现落地，要解决的问题是无穷无尽的。

落地路径的基础是感知，核心是人机交互，难点是切换。为什么基础是感知？因为前面有没有车，知道安全线在哪是行车最基础的信息，包括车内感知要做到千人千面，以及对司机疲劳分神的感知，这些都是做汽车的基础。为什么交互是核心？L3级自动驾驶中，人还是驾驶的主体，人和机器是在不停交互的，如何做好交互是产品力的核心所在。那为什么切换是难点？因为L3级自动驾驶车在行驶过程中，会遇到一些车觉得自己控制不了的突发情况，就要把驾驶主体换到人。什么时候做切换，需要汽车对于自己驾驶的可靠性、对于检测的可靠性以及执行度都有比较清晰的判断，同时对司机状态也有清晰的判断。切换是难点，切换的基础就是对车的理解。

对于科学家，或者科研工作者而言，在企业中要做的不仅是现有科技成果的转化，还要从实际落地场景中找到一些新的问题，从新的问题中再去探索新的答案，这本身也是科技创新的重要方面。

本文来源亿欧，经亿欧授权发布，版权归原作者所有。转载或内容合作请点击 转载说明 ，违规转载法律必究。