浅析自动贴标，特斯拉用人类驾驶行为训练 Autopilot

亿欧网 • 5年前扫码分享

【编者按】人工驾驶行为为特斯拉提供了与自动驾驶相关的计算机视觉自动标签（Automatic labels），相较于 Waymo 和 Cruise 等竞争对手，自动贴标（Automatic labeling）使特斯拉能够利用其海量的车队里程数，为其带来竞争优势。

本文转载自42号车库，原作者译龙；由亿欧编辑，仅供行业内人士参考。

据外媒报道，贴标（labeling）将助力机器学习的运行。单个标签能向人工神经元网络说明给定输入信息的正确输出值。

举个例子，视频中空闲车道的像素会被贴上「自由空间/可用空间」的标签。与车辆、行人、人行道、交通锥标、障碍物等所对应的像素则不得被标记为「自由空间/可用空间」。鉴于有足量的标签示例，神经元网络非常善于学习与路面及障碍物相对应的像素图形种类。

在展示的一段新视频中，经训练的神经元网络可给出正确的输出结果，使得自动驾驶车辆能够了解哪些地方可实现自动驾驶车辆的安全行驶，哪些地方则无法做到这一点。以下视频展示了特斯拉系统对「自由空间/可用空间」的理解，其采用绿色来表示：

默认的视频贴标实现方式是聘用相关人员来对视频像素内容进行人工贴标工作，然而，该方式代价太高昂了，因为手动贴标非常耗时，而所需标记数据的数量十分巨大。若我们有其他方式完成数据贴标，会怎样做呢？

通用高管阐述自动贴标理念

事实证明，我们已经找到了替代性方案。通用旗下的自动驾驶汽车子公司——Cruise 的总裁兼首席技术官 Kyle Vogt 最近简述了其基本理念：

我们如今所做的工作，更多的是自动贴标。我的意思是，基本上，要将人工贴标（human labeling）从工作回路中剔除掉。

真正让我感到有意思的是，我们可以从车辆驾驶方式中推断出很多内容。若车辆驾驶未曾出现过任何错误，那么就能从中推断出车辆驾驶中所暗含的正确（操作）事项。当自动驾驶车辆能够在大体上保持驾驶操作的正确性，车内的乘客就会说「你干得不错啊！」对于我个人而言，这意味着车辆需要获得非常丰富的信息源。

沃格特继续说道：「若您是公司方，且您的业务模式仍依赖于数据的人工贴标，那么您公司将被某些竞争对手的公司碾压，因为后者正在思考应如何采用新方式来重新梳理数据贴标，确保其不必为了这类数据标签耗费太多精力或直接剔除工作回路中的人工贴标环节。」

那么，若采用人工驾驶习惯来完成对「自由空间/可用空间」的自动贴标呢？在 2018 年发布的一篇论文中，计算机视觉研究人员（含两名印第安纳大学的研究人员）作出了探索尝试。

人类驾驶员很少会撞上障碍物，他（她）们几乎始终在空闲车道行驶。因此， 人工驾驶可被用作「自由空间/可用空间」的（自动）贴标途径 。研究人员将这类自动贴标与视线中可看到的「自由空间/可用空间」推定相结合。此外，该方法的自动贴标技术精度达到了手动贴标方式精度的 98%。

特斯拉在自动贴标领域的优势

特斯拉自今年初开始公开强调自动贴标的重要性，埃隆马斯克在今年 2 月份的采访中表示：「我们开始使用自动贴标方式，效果确实比人工贴标要好。就我个人而言，当驾驶员将车辆驶向十字路口时，该操作行为在训练 Autopilot，告知其在遇到十字路口时所需完成的操作。」

在今年 4 月的「自动驾驶日」（Autonomy Day）特斯拉人工智能部门的高级主管 Andrej Karpathy 反复探讨特斯拉是如何使用自动贴标的。以下视频为其中的一个示例：

我们不妨回顾下今年 2 月特斯拉 Autopilot 团队发布的岗位说明，特斯拉当时在寻找应聘人员，要求后者能够设计新方法，从而使用可轻松标记好（lightly labeled）的海量贴标数据。
这类对「自由空间/可用空间」的自动贴标似乎与特斯拉的惯用做法非常契合。相较于前文所提及的研究人员，特斯拉所能接触到的数据量更加丰富。 举个例子，特斯拉能够探查到急刹车及车辆碰撞的其他标志。 从理论上讲，该方法或许还能清除特斯拉车辆未进入「自由空间/可用空间」的那些示例。
特斯拉的数据不但丰富，还非常充裕。
截止至今年底，特斯拉将拥有近 70 万辆配有环视摄像头的特斯拉车辆在路面上行驶，其车辆搭载了第二代或第三代车载计算机。
这类车辆的月平均行驶里程数逾 1000 英里/辆（约合 1609.3 公里/辆），而这类的总行驶里程数逾 7 亿英里/月（约合 11.27 亿公里/月）。
相较之下，Waymo 车队只有 600 辆自动驾驶车辆，这是全球最大的自动驾驶路测车队。在美国，将所有公司的自动驾驶测试车辆汇总后，其总数才不过近 1400 辆。即便这 1400 辆自动驾驶测试车辆全天候无停歇地行驶，且平均车速保持在 70 英里/小时（约合 112.65 公里/小时），每月的测试里程总数也只有近 7000 万英里（约合 1.127 亿公里）。
怀疑论者恰巧指出，若特斯拉对其车队所采集的视频数据进行手动贴标，细化到「每英里」这一层级，从经济角度看，手动贴标并不具有可行性。然而，自动贴标有望完成更高大数量的数据标贴工作。
百度的研究使得我们对神经元网络精度等级与贴标训练数据间的关联性有了大致的了解。 在对图像内的多个目标物进行分类时，当各指令所对应的贴标训练示例的数量呈倍数增长时，其精度大致能翻番。 因此，当上述数据量翻十倍，精度翻两倍。当数量翻百倍，精度翻四倍，当数据量翻千（10 的三次方）倍，精度翻八（ 2 的三次方）倍，以此类推。（当数据量翻 10 的 X 次方倍，精度则翻 2 的 X 次方倍）。
而对「自由空间/可用空间」识别的增长速率可能更高。
对「自由空间/可用空间」的识别工作属于二进制，一个像素，要么对应「自由空间/可用空间」，要么对应「非自由空间/非可用空间」。相较之下，百度更关注如何从上千种可能性中挑选出正确的目标物类别。这类测试的精度标准更显宽容性，若能将其正确地归入到五大猜测类型中，神经元网络就会视其为正确的分类（贴标）。 采用这类方法，训练精度每翻四倍，精度则翻倍。 例如，若数据量翻 4 倍，精度翻 2 倍。若数据量翻 16 倍，精度翻 4 倍。若数据量翻 64 倍，则精度翻 8 倍，以此类推。
除了识别「自由空间/可用空间」，特斯拉还可能将自动贴标用于其他计算机视觉任务。 那么，将人工驾驶行为用于对交通灯的贴标辅助会怎样呢？
当驾驶员驱车时，交通灯通常处于绿灯状态。当驾驶员停车时，交通灯通常处于红灯或黄灯状态。当然，这类标签也会存在一点「杂音」，毕竟驾驶员偶尔也会在红灯时行驶，但研究人员表明，即便存在这类「杂音」标签，该举措也能大幅提升操作的精度。自动贴标并不需要排斥手动贴标，相反，自动贴标可被用作手动贴标的辅助手段。
显然，手动贴标也是特斯拉机器学习流程的一个重要环节。Andrej Karpathy在「自动驾驶日」活动中对此作出了解释。当谈到对视频或图像进行手动分类贴标时，特斯拉车辆的规模性是一大恩赐（优势）。
凯勒·沃格特表示：「我们需要海量的数据和驾驶（测试），原因在于试图最大限度地获取我们当前所持有数据组的熵值并确保其多样性。从本质上讲，熵值代表了数据的意外性、新颖性或不可预知性。」
一组研究人员设计了一种新方法，从原始的、未经贴标的视频中发现新的目标物类别。该技术或类似技术有望帮助特斯拉从车队里程数中提取大量罕见的边界用例（rare edge cases）。即使对图像或视频均采用手动贴标，特斯拉数据组的熵值和多样性也更高。
除了计算机视觉领域外，特斯拉还能将自动贴标应用到其他领域。当谈到预测道路用户的行为时，很容易想到自动贴标技术。未来将为过去贴上标签。特斯拉可利用海量的行驶里程数来改进预测精度，且无需进行任何手动贴标。
当谈到仿效上路行驶的人工驾驶操控时，也会产生数量充足的自动标签。驾驶员凭借其驾驶操作，自动完成贴标操作（该类标签能够被车载计算机视觉系统所识别），这就是所熟知的仿效学习（imitation learning）。特斯拉利用车队还学习人类驾驶员的驾驶方式。
由于特斯拉车队的行驶里程数远高于竞争者车队行驶里程数的总和，特斯拉可以使用自动贴标技术来提升计算机视觉、行人预测及驾驶操作习惯（通常被称为“规划”）的性能表现。基于上述的百度研究成果，特斯拉在机器学习任务若采用自动贴标，或将提升数据的数量级及其精度，超越其他竞争对手。
我认为，完全自动驾驶车辆的前景还有些晦涩难明。
今年 6 月，Cruise 的一份内部报告被泄露给媒体了。该报告涵盖了 Cruise 的预期：到 2019 年末，相较于人工驾驶的安全性，其自动驾驶车辆的安全性只能达到前者水平的 5%-11% 。从某个角度看，这一点令人颇感失望。从另一个角度看，这却是个鼓舞人心的好消息。若 Cruise 能在今年末达到其预期目标，这意味着「只」需要进一步提升 10 倍或 20 倍的安全性水平就能达到人工驾驶的平均水平。
在本文中，像特斯拉这类公司是能够利用自动贴标和大规模车队学习的，这类举措或将大幅提升与自动驾驶相关数据的数量级及机器学习任务的数量。

完全自动驾驶套件及 Cybertruck 为特斯拉带来的机遇

完全自动驾驶车辆的金融机遇非常大。
在软件成本方面（如：几近于零的边际成本），消费型车辆将转型为盈利性无人驾驶出租车。麦肯锡的分析师预计，仅洛杉矶一地，无人驾驶出租车将产生 200 亿美元（约合 1408 亿元）的年收入。此外，麦肯锡还预测，若结合无人驾驶出租车及完全自动驾驶的私家车，中国市场的年收入或将高达 2 万亿美元（约合 14.08 万亿元）。
然而，一定程度的自动驾驶也不应被忽视。若将机器学习与人工监管、人为操作介入相结合，也能够为用户提供安全、愉悦的驾驶出行服务。如今，自动驾驶市场竞争激烈，人类与计算机有时需要携手合作，类似于「在人类与机器人间展开的国际象棋赛（cyborg chess）」。在不远的将来，我们可能会看到「半人半机器的驾驶（cyborg driving）」，这类人机结合的方式可同时利用人工神经元网络和生物体（人类）各自的优势。
从实用的财务角度考量，这意味着特斯拉完全驾驶功能（Full Self-Driving Capability）软件选配件拥有较高的转换率（盈利能力，take rate），这得益于该项选配件所带来的收入，可能与其较高的定价及特斯拉车辆需求增长有关。总而言之，该选配件可为特斯拉带来较高的收入和毛利率。
此外，特斯拉 Cybertruck 的未来主义设计风格也引发了热议，口碑呈现两极分化。
Cybertruck 和《银翼杀手》（Blade Runner）的风格较像，预计首批 Cybertruck 的交付时间要等到 2021 年的年末后。到那时，我认为很可能还会推动先进城市驾驶功能的涌现，该类功能势必也具有未来主义风格，就像其外观一样超前。Cybertruck 使得人机结合驾驶变得更有意义，但这要取决于 Cybertruck 的受欢迎程度。据我个人预计，未来特斯拉或将推出 Cybercar 和 CyberSUV。
在我们享受无人驾驶出租车服务或成为半人半机器（cyborg drivers）驾驶员前，特斯拉还有一堆人工的设计及研发工作需要完成，这需要花时间。在特斯拉的研发进程中，并非所有的进程都能实现自动化，这一点难以预计。
如今，我们能做的就是等待并观察特斯拉向旗下车队发布的软件升级包及其新增功能。

本文已标注来源和出处，版权归原作者所有，如有侵权，请联系我们。