从“新手”到“老司机”,毫末认知智能如何让自动驾驶更像人类?
最近两年,自动驾驶俨然已经成为一个大众话题,但很多问题的讨论仍然聚焦在表面。
比如,对于自动驾驶的讨论更多还是集中在感知领域,涉及到要用多大算力的芯片、要不要上激光雷达,上几颗等争论,看不看得懂,看不看得清的问题。
但其实随着智能驾驶产品(主要是辅助驾驶产品)的规模量产,越来越多的普通用户其实已经能够体验到自动驾驶到底是司机的福音,还是带来更多驾驶难题?
当智能驾驶开始交付给普通用户的时候,作为乘用车的基础功能,除了感知智能识别的准确性外,决策和控制的安全性、稳定性和舒适性也同样重要。
尽管说市面上很多车企都推出了被称为L2级的辅助驾驶产品,但实际上,性能和体验差别极大。主要的差别,一方面在于硬件方面的传感器精度、范围,以及算力的上限,所决定的能够识别环境、场景的广度和范围,另一个就是车辆对这些感知的判断和决策。
这也成为很多车主日常吐槽辅助驾驶不够聪明,也不够省心,更不够舒适的地方。
比如这种“自主了但又没自主”问题,有些带有高速域辅助驾驶功能车辆开启了自主变道超车功能,但在高速遇到稍微车多的情况,车辆就迟迟完成不了变道指令,让变道变了一个寂寞。
又比如,“新手刹车”问题,有些辅助驾驶系统就像刚上路的新手一样,很难把握刹车的轻重,一些明明可以匀速减速的场景,车辆却总会拖到最后一刻才急刹。
实际来说,当下这些自动驾驶或者说辅助驾驶产品,其决策系统更多依靠执行既定驾驶策略和规则,而不是采用人类的泛化学习。
当人类新手有了半年时间或者几千公里的开车实践,基本就可以做到非常丝滑的驾驶,那么,对于自动驾驶来说,是不是有真正能解决认知决策痛点的“第一性原理”呢?
接下来,我们透过中美两家极具代表性的自动驾驶技术玩家特斯拉和毫末
智行(参数|图片),看下自
动驾驶究竟要怎样才能做到更有“人性的智慧和温度”?
复刻“老司机”逻辑:特斯拉自动驾驶的“自我学习”
日本作家夏目漱石在他的长篇小说《猫》中,曾借猫咪之口这样讲到,“人类所有的研究,都是为了研究自己”,其实自动驾驶又何尝不是对人工驾驶的学习呢。
在自动驾驶领域中,马斯克可以说是第一个“明牌”这一想法的人,而他的这一逻辑则是源于对第一性原理的思考。
基于第一性原理,我们也可以对人工驾驶再做一次复盘:想象一下,在拥堵的城市中跟车时,在红绿灯路口与对向车流博弈时,我们是怎么做的?
美国科学院院士丹尼尔·卡尼曼在其书籍《思考,快与慢》中,将人类的思维分为了本能反应与深度思考。我们之所以能高效舒适地完成复杂场景下的驾驶,靠的便是通过不断学习实现这二者的融合,这也是人能否从新手蜕变至老司机的关键。
对于自动驾驶而言,当前现状再清晰不过了。由于大量手写规则的采用,自动驾驶实际并不具备深度思考的前提条件,仅能依靠本能反应决策;想让自动驾驶媲美人工驾驶,首先要赋予其深度思考的能力,其次则是实现其与本能反应的融合。
想清楚了这一点,自动驾驶至少有方向可循了,但方向只是第一步,想要让自动驾驶更像人,还需要有好的方法。
关于这一点,早早实现高速域与城市域辅助驾驶的特斯拉已经给我们打好了样板。按照驾驶场景,特斯拉首先会进行辨别,哪一种是相对简单的,哪一种是更复杂的,由此将规划&控制分为两线,给予不同的逻辑。
以大型商超的停车场为例。工作日的商超停车场车流量稀少,能够给到驾驶者很高的自由度,算是简单的场景;而节假日的商场停车场则完全相反,大量的车流、拥挤的车道、抢手的车位,以及隐藏在视野盲区下胡乱奔跑的小孩,这种环境非常考验驾驶者与其它交通参与者的博弈心理与驾驶能力,是非常复杂的场景。
那么特斯拉是如何应对这两种场景的?在一些相对简单的场景中,特斯拉会根据感知绘制的3D向量空间的基础上,加入一条粗估的行进路径,再加入安全性、舒适性等指标进行优化,得出一条具备多种参数的时空轨迹。
而面对复杂场景,特斯拉借助Transformer大模型全局注意力机制的特点,并以车主数据为基础训练一套算法模型,由此让AI决策与人脑的想法更接近,并提高实时性。
此外,在与其他车辆、人等交通参与者遭遇时,特斯拉会对其他交通参与者的状态参数收集,并得出其路径,由此再调整自己的轨迹与规划。这一特征将是实时的,以确保特斯拉能够针对环境的改变快速做出反应。
总结来看,特斯拉的自动驾驶复刻了人工驾驶的思维逻辑,而这些思维逻辑换算到自动驾驶的语言,便是数据、算力、算法。
数据是自动驾驶的基石,就像书本中的文字一样,想要读懂书籍,就必须先学会识字,而算法便是书籍,其将零散而无意义的文字组合,提供自动驾驶需求的知识;算力的理解就很简单了,有一颗聪明的大脑,自动驾驶才能将看到的知识真正学会。
当然,特斯拉的自动驾驶技术在当下也算不上足够“聪明”,但其自动驾驶与第一性原理融会贯通、并将其成功运用于规划与控制环节中,却依旧是领先的。
换句话说,特斯拉确实走在了自动驾驶的前列,而在其余自动驾驶企业中,谁能率先领悟到这一点、并率先实现落地,谁的自动驾驶技术与产品就能获得更多用户、乃至整个市场的青睐。
从怎么学到学什么:毫末让自动驾驶更有“人性温度”
如今纵观整个行业,以数据为基石的自动驾驶企业并不多,而除特斯拉外,毫末智行绝对是最吸引人的那一家。
毫末智行为自家的数据智能体系命名为MANA,其具备感知智能、认知智能、标注、验证与计算五大能力。MANA在2021年底被毫末智行正式提出,并在4个月后宣布实现了感知智能、认知智能、成本&速度三大领域的进化。
在这之中,认知智能就是毫末用以帮助自动驾驶技术实现更人性化、更有温度的方法。
在毫末智行看来,认知智能很难被量化、规则化,因为牵扯到很多变量,如果按照以往的手写规则,必然会因为规则量的暴涨导致整个自动驾驶崩溃。
同样,自动驾驶作为人工智能的一大分支,其核心应当是智能,而规则只是机械的命令执行。所以认知智能的目标,就是替代手写规则,让自动驾驶更像人。
基于此,毫末智行为感知智能设定了三大要素,分别是安全、高效与舒适。安全是自动驾驶的前提,而高效与舒适则需要从数据中学习,其他交通参与者行为的理解和超时空的历史经验。
概念说太多容易眼高手低,所以对于如何让自动驾驶更像人,毫末提出了让自己的自动驾驶学徒毕业的“两步走”策略:第一步是让自动驾驶懂得“怎么学”,第二步是让自动驾驶知道“学什么”。
对于“怎么学”,毫末智行的想法是,借助Transformer大模型及其全局注意力机制的特点进行预训练,为自动驾驶不同的算法模块设计算法模型。
这样做的好处是,经过统一大模型预训练得到的模型具有更高的泛用性,各模型之间可以快速建立联系,提升整个自动驾驶系统的工作效率;另外具备全局注意力机制的模型也具备更强的鲁棒性,在面对复杂场景时,更能高效消化海量数据、输出更准确的决策。
对于这一功能的优势,最好的演绎莫过于经典的红绿灯场景。想象一下,如果此时的你是左转道的头车,而在绿灯后,你将如何穿过对向的直行车流,完成左转?
按照传统辅助驾驶产品的逻辑,此时必定是以保证安全+遵守法规为前提的,然而现实情况是,如果你完全遵循这一前提,你是根本无法在绿灯内实现左转的,而后车也会因你影响通行效率,夸张点引起怒路症都不为过。
人是会审时度势进行变通的,但手写规则不会。所以毫末智行的做法便是,以车主在这一场景下的行为动作进行解析,由此解出为一套完整的思维逻辑。
而全局注意力机制的优势则体现在,驾驶者在与临近的对向车辆进行博弈时,还会将附近的交通参与者加入进来,做到“抬起头走路”;而缺少全局注意力机制带来的结果就会像“低着头走路”,出门只能中午走,因为早晚要撞墙。
毫末智行将认知智能“怎么学”模块命名为TarsGo模块。TarsGo会以数据驱动,并以模型的形式训练算法,由此实现对人脑思维逻辑与学习的模拟,实现最终对手写规则的替代。
解决了“怎么学”,下一个问题就是“学什么”。同样在红绿灯左转的场景中,有的车主会以非常暴力、或者过于激进冒险的方式通过,极容易引发事故或拥堵。而这种驾驶数据和策略,对于自动驾驶来说,显然是不值得学习的数据。毫末会将人类驾驶中那些更稳妥安全驾驶策略的数据进行筛选,作为机器学习模型用来学习的样本,从而训练出更安全、更符合交通规则,也更具人性化的驾驶策略。
对此,毫末智行的解法则是引入大模型训练。通过大模型的引入并预训练,毫末智行为LucasGo模块建立了能够筛选优质数据的算法模型,这也使得认知智能中数据、算力、算法能够形成良性闭环循环。以大算力平台为支撑,海量标注的优质数据将推动算法日渐成熟,自动驾驶也将由此变得更具人性,更有智慧和温度。
自动驾驶,开始于自主认知决策之后
总而言之,对于自动驾驶而言,想要变得比人类驾驶更加安全、舒适、高效,核心还是要让其拥有自主决策的能力,将长期训练中获得的开车的经验变成不断累积的智慧。
从人类智能的角度来说,真正掌握知识的标准不是机械地记忆和重复背诵,而是可以灵活应用到解决实际的问题过程中。因此,对于自动驾驶,仅仅依靠人类制定的开车规则是不可能学会开车,靠自身算法训练建立起来的认知决策模型才更具生命力。
不论是特斯拉的规划&控制方案,还是毫末智行数据体系MANA的认知智能能力,尽管二者在技术路线等方面存在许多不同,但其在认知领域的内核都是相通的,即通过对第一性原理的思考,让自动驾驶以人工智能自主学习的形式实现迭代升级。
在认知决策上引入AI的大规模训练,这让特斯拉与毫末智行在自动驾驶技术的进化上领先了一大步。让 汽车 模仿人类开车,变成让汽车像人类一样学会开车,这是自动驾驶行业接下来更为重要的一项任务。