极越夏一平:未来汽车的 OS,就是大模型
作者 | 周永亮 编辑 | 靖宇
「电动化带来的不只是能源的变化,这也是为什么极越觉得现在进入汽车行业也不晚。」
10 月 27 日,极越品牌旗下首款车型极越 01 正式上市,一个多月后的极客公园创新大会 2024 上,集度 CEO、极越 CEO 夏一平就表示他们有信心,哪怕不久后特斯拉的自动驾驶将进入中国,但在智能驾驶体验上,极越将比特斯拉做得更好。
在 12 月 16 日举办的极客公园创新大会 2024 上,夏一平介绍了「极越」这个让大多数人还有些陌生的汽车品牌。背靠在智能驾驶深耕多年的百度,极越在业内第一个提出「汽车机器人」的概念,其内核是载人机器人。这正是极越与其他新能源汽车品牌的不同之处。
夏一平认为, 智能化的汽车就是可以自然交流、自由移动、自我成长的「机器人」,汽车将从过去冰冷的机器,变成有温度的伙伴 。
而在新能源汽车行业「风生卷起」的当下,夏一平和团队的思考回归到了智能汽车本身:电动化较之化学能源,带来的不只是能源变化,而是范式转换。未来汽车比拼的底层,已经从操控变成了算力的竞争。
在各家比拼续航、三电、操控之时,极越在思考车真正智能化的方向:智能不只是功能堆叠,也不是把车机当成大屏手机,而是充分利用高算力芯片,把车当成一个完整的智能体,衔接上大模型的应用,如同机器人一般,调动起它的「全部感官」。
当各家都在比拼智能驾驶「开城大战」时,夏一平认为光看数字意义不大,而是要看智驾能覆盖的范围。当特斯拉的 FSD(全自动智能驾驶)入华的新闻传来时, 夏一平认为在中国,极越的智驾有信心做的比特斯拉更好 。
以下是夏一平在极客公园创新大会 2024 上的演讲实录,由极客公园整理 。
01 智能车,如何进化成「机器人」
极越 01 在极客公园创新大会 2024 现场进行展示|极客公园
张鹏:极越 01 已经上市,很多人对于车的理解没那么专业,你作为产品的创造者解读一下,在极越 01 的设计上是怎么思考的?
夏一平: 极越这个品牌在诞生之初,品牌、服务、产品这三个体系就按照一整套的规范去打造。 核心是希望突出它的科技感,所以无论是整车和品牌,还是线下门店和服务,我们在设计上融入了很多机器人相关的概念。
我们设计师最早在设计汽车时,按照三个方向,第一是机器人化有未来感,这个车不是简单的一台冰冷的机器,它怎么跟人产生情感交流。
第二是未来汽车发展的形态。 你要思考机器人拥有什么样的能力才能被称之为机器人,不管它是四个轮子汽车形态,还是两足、四足或是人形机器人,它跟人类共存的时候要具备基本的能力, 比如自然语言交流,所以我们比较强调自然交流。我们认为不管在任何的场景下,所有形态的机器人一定要实现自我行走,它本质上就是自动驾驶。
第三点很重要, 它必须可以基于数据和场景自我学习和迭代 。
这三点是我们公司开发产品的三大定律,也是我们对产品最底层最核心的定义:自然交流、自由移动、自我成长。 硬件、底层的架构、软件的智能化,再到上层各种模型的融合应用,都是围绕着这三个最核心的逻辑去打造的。
张鹏:之前大家可能还没有在车和机器人两者之间产生很强烈的关联,以前一说机器人就是扫地机器人,你认为在一个家庭里,车其实就是机器人,车跟人有了关系的变化,这种关系到底变化在哪?
夏一平:过去我们在使用车的时候,是我们在驾驶它,操纵它。而现在,车已经不再是一个冰冷的机器,它更多是一个伙伴。 我们的车语音助手叫 SIMO,就很多车主会认为 SIMO 是一个有人性和感情的伙伴。
张鹏:类似于助理的角色。
夏一平: 对,因为不止车内可以交互,车外也可以交互,所以本质上它不是一个简单的接收指令的系统,而能跟人产生交互的感觉。
张鹏:在车外能交互是一个改变人车关系的重要点,车内交互时我会当它是助理,但人在车外,车也能理解我吗?
夏一平: 是。差不多 2008、2009 年,智能汽车开始做语音交互,你会发现第一波做车内语音的时候,那时候我们觉得已经做得很强了。但那个时代没人用语音交互,当时不像现在,你在车里可以随便说语音指令,现在的语音系统能理解自然语言。当时的用户必须记住每一条语音指令,这设计非常反人性而且用户体验也不好。现在语音是交互性的,而且还不是人和机器的交互,而是非常拟人化的交互。
张鹏:能够自由的沟通,就会改变和拉近人车关系。
夏一平 :对,所以我们在三大定义里的自然交流,是近乎于跟人对话一样跟车自然交流。这是为什么我们很强调交流的速度,在我们车里,你用语音跟车机交互的反应的速度在 500 毫秒到 700 毫秒之间,基本上等同于我们俩现在对谈的反应速度。
张鹏:人车关系的改变是可以被一些数据和明确的指标衡量吗?比如反馈的速度和语言交流的自然程度。
夏一平: 是的。
集度 CEO 、极越 CEO 夏一平和极客公园创始人兼总裁张鹏探讨汽车的智能化转向|极客公园
张鹏:智能汽车开发的范式,在今天发生了什么变化吗?
夏一平: 分两个层面,2021 年 6 月我们正式开始启动极越 01 这个项目,那时只有三个人,极越 01 的第一行智能化代码到今天软件系统完成,是我们在两年期间里做出来的。
这里面很大的挑战来自于两个方面,第一是我们内部的软件团队是以周为单位来做软件,一个版本开发,一个版本测试,一个版本上车。但不是所有下游的产业链合作伙伴都能够跟得上这种速度。过去汽车行业开发是一个微型模型,你给他一个需求,它要经过需求的解读、研发、单元测试、集成测试、上车测试,最后才能把软件给你,这个周期很长。
所以不可能让合作伙伴也以周为单位给我交付新版本。我们在中间有一段时间,整个团队代码的 Bug 量累计到了一万多,因为底层很多传统的汽车的 MCU(电机控制单元)的控制逻辑没解决,导致上游积累了很多应用的问题。
张鹏:光靠一个体系跟着你走,你自己想快也快不起来。
夏一平: 是,我觉得在新时代下,跟产业链整体的合作伙伴在一个步伐上造车真的很有挑战。
第二个挑战在于,现在汽车开发复杂度比以前高了很多。假设 我们把过去整个开发看成一个方程式,它是比较固定的,但是你在 AI 时代,变量的结果可能是有各种可能性,而且可能性的出现的比例很大 。
因为比如一个左转动作,左转时光照、天气情况、有没有人、路况怎样、有没有车……同样一个左转,结果就非常不一样。
张鹏:所以这事怎么解呢?
夏一平: 第一,我们现在叫泛化城市,需要实车跑大量路面测试。
第二,要做到快速软件迭代,我们车上有一个功能,你在车上说「SIMO,我要报一个问题」就可以把开车过程中遇到的所有问题,通过语音系统报上来。我们会直接在系统里面生成一个程序,把这个问题通过系统自动分配给它出现问题的工程师,不需要中间还有一个产品经理去做问题分发。
张鹏:那你这个真的很极客,随时报 Bug。
夏一平: 而且用户在手机端就可以看到 Bug 解决的进程。
张鹏:很极客。
夏一平: 这个时代必须快速迭代,我们本月底会发布 1.3 版本的 OTA,光功能就加了四百多个,我们就是在用这种方式加快软件迭代。不可能我哪天左转突然发现很危险的问题,还得等半年时间让软件迭代。
02 极越没迟到,时机刚刚好
张鹏:我再问一个大家可能关心的点,你们今年 10 月底开始交车晚不晚?汽车行业已经很卷了,交付上有没有压力?
夏一平: 压力肯定是有的,没有压力也不正常。我们一个很重要认知是:整个汽车行业的发展,从当年的油车到电动化,再从电动化早期大家比续航、三电、操控,现在在往智能化方面走,范式变化很大,电动化带来的不只是能源的变化。
在油车时代,我们很多的操控系统像是液压转向、液压加速,本质上是用化学物质操控。从长期发展来讲,自动驾驶系统很难靠化学物质控制精度 。当纯电出来之后,把整个汽车的底层架构全部数字化,化学状态更容易不可控的要素,数字化把它变得更线性。所以现在的数字底盘、数字转向、数控转向、数控刹车,这些都是来解决整个车的数字化。
数字化解决之后是供电方式的变化。过去油车靠 12 伏小电池供电,发动机不开都不敢开空调,因为小电池无法长时间供电。但电车有可以高压供电的大电池,在不启动车的时就能在车内听音乐、吹空调、看电影、打游戏。这是在油车时代无法享受的体验,除非发动机一直开着,但你也很难开着发动机睡觉,噪音太大。
当整个电车全部被数字化之后,大家比拼的是什么?这是我们要去思考的。我们认为未来 5-10 年汽车产业发展的巅峰是无人化自动驾驶。 未来 10 年比拼的核心能力,已经从过去的三电、操控性逐渐到了比拼算法、算力 。在今天,百度对大模型、数据、地图、算力的应用,让它具备未来智能汽车全链路上所有的核心竞争力,这也是为什么我们觉得现在进入这个行业也不晚。
汽车在过去很长一段时间里算力非常低,在 2022 年底和 2023 年出现了两个芯片,对整个行业产生很大影响。
一个是(高通)座舱 8295 芯片,这是汽车行业有史以来第一次在算力上超过手机。以前在(高通)8155 时代,汽车算力比手机弱很多,也不能同时支持座舱和智驾的大算力。另一个(英伟达)Orin 芯片有 254 TOPS 的算力。正是这两个芯片的出现,得以让过去只能在云端或者在高算力 PC 上跑的算法,能在车规级芯片上落地。如果没有这两个芯片,所谓智能化汽车还只是在功能上叠加,不能真正叫智能汽车,正是有了这两个芯片,才有可能从底层软件到上层应用,重构整个智能汽车。
张鹏:听你刚才描述算力的变化,有点像当年我们谈论移动互联网何时到来,4G 的出现解决了带宽到数据的成本问题,移动互联网因此蓬勃发展起来。所以,汽车智能化会因为这两个关键的算力芯片到位,在接下来进一步提速?
夏一平: 一定会进一步提速。现在 ChatGPT 背后逻辑也是因为服务器侧的算力快速提升,成本快速降低。汽车也是一样,可能今天我们用 8295 和 Orin 成本还是比较高,但是我相信未来一定是靠它们的算力(降低成本)。我们刚开始用 254 TOPS 芯片的时候,英伟达就推出了 1000 TOPS 的算力平台。
我们的长期判断,当整个行业越来越智能化时,芯片迭代速度也会非常快,我们才用上 8295,8795 就出来了。大家对技术发展理解一致,就看行业发展能不能跟得上芯片发展速度,毕竟 汽车还是再快也要注重安全性的产品,半年开发一款新车的可能性不大,至少都得经过两年时间才能开发一款新车 。怎样把科技和整车架构衔接起来,我觉得这是整个行业下一步需要解决的问题。
夏一平认为极越进入汽车的时机刚刚好|极客公园
张鹏:那你来得刚刚好,正赶上了一个时代的切换。
夏一平: 我觉得刚刚好,如果再早几年,你让我造一台这样的车,我没有这么大的信心,最多就做一个跟其他车差不多的产品。因为当时就只有 8155 的芯片,差不多 7.5 TOPS 左右的算力,连复杂的 3D 渲染都做不了。我们之所以今天有能力直接基于 Unity 的 3D 引擎做 UI 开发,从视觉上对车进行 3D 渲染还原,能支持 6K 大屏全屏游戏,再到今天的智能驾驶,都是因为车规级芯片能力的大幅提升。
张鹏:之前的技术只能把智能当成智能功能的堆叠,但还不具备做一台「机器人」的能力。
夏一平: 我觉得这是两种思路,一种是把智能化当做功能做到车里面去。另一个是正向思考:我做一台智能汽车,应该怎么去开发,这两个产品有天壤之别。
03 论智驾,极越能赢特斯拉
张鹏:再说一个比较直接的问题,特斯拉的 FSD(Full Self-Driving Computer,全自动驾驶)也要进中国了,你们在自动驾驶层面上进展如何?怎么衡量和特斯拉之间的距离?能和特斯拉同场竞技吗?
夏一平: 我们的智能驾驶很大一部分是衍生自百度 Apollo L4(级别)的 RoboTaxi(自动驾驶出租车),很多方面的能力是很强的,毕竟在中国能够做规模化无人车运营的,可能只有百度一家。在过去很长一段时间里,百度积累的不止是智驾技术经验,还有安全经验,即怎么做智驾是最安全的。
同时,为了保证长期的自动驾驶技术泛化性,我们车上用了纯视觉的技术方案,目前在中国肯定是第一梯队。目前全球只有两家在做智驾,一个是特斯拉,一个是我们。 如果特斯拉 FSD 进中国,我们有信心比他们要强 。因为我个人也经常去美国试他们的产品,他们在美国确实比较厉害。但在中国,最大的挑战是中国的路况——中国城市道路结构、道路规则,甚至红绿灯识别语义都和美国不一样。在泛化性这件事情上,特斯拉需要解决的问题还有很多。特斯拉对于一些通用场景的解决能力一定是比较强的,但不代表放到中国立马就可以应用。
所以,我觉得特斯拉进入中国之后,要花很长时间去提升它在中国的泛化能力。在城市的高阶智驾体验上,我并不觉得它马上就能做到跟我们一模一样的体验。
张鹏:我再追问一下,最近大家在车圈里聊 NOA(领航辅助驾驶)聊的很多,以后 NOA 会是核心看点吗?
夏一平:我认为长期来看,一个好的自动驾驶一定是以覆盖率为导向。
但一些企业把它当成一种营销手段,就不太合适了。我们现在的智驾已经覆盖了全中国 90% 的高速和城市高架,甚至是快速路,这是什么概念? 如果智驾能够覆盖城市高架和城市快速路就算开辟了一座城的话,我们在中国已开超过 200 城 。
但是,我还是要强调一下智驾的安全性,我们在拥抱一个非常好的智能化时代,但不宜在这个时刻让用户产生过高预期,因为智能驾驶还是非常有挑战性,解决自动驾驶问题是人类 AI 历史上的明珠,不是简简单单靠一个几百人团队很快就能把事情做出来的。特别在自动驾驶 AI 泛化性上,很具有挑战性,不能一蹴而就。
我觉得从长期来看,智驾需要覆盖更多的区域才是好的服务。为什么 我们未来会做按日订阅的模式,逻辑很简单,你有什么样的能力给大家提供智驾,覆盖了什么区域,用户会基于你的能力付费 。
比如我在一个没有智驾覆盖的三四线城市里生活,但是我今天要走高速去另一个城市出差。我们的智驾覆盖了全程的高速高架,那就可以买一天的服务。要出去自驾游七天的时候,用户就买个七天包。我是基于服务能力给大家提供服务,不是花大钱终身买断后发现各种地方都没有覆盖服务,用户就会想为什么要花那么多钱买一个这么多年都用不上的服务。
张鹏:所以本质上更务实一点,哪怕就这一段路能用智驾解决,用户可以选择用或不用,而不是空放个数字和概念。
夏一平: 是的,我觉得数字没有任何的意义, 如果把智驾当做一个服务,我要考虑能给用户在多大的区域里服务。
04 未来汽车的 OS,就是大模型
张鹏:我再追问一个问题,刚才聊到汽车机器人这个产品定义的概念,极越的车里也很大胆地取消了很多物理按键。你担不担心用户觉得这种设计太激进了,你怎么面对这个问题?
夏一平: 在产品研发的过程中,纠结过很多次。曾经有一段时间我都很怀疑,我经常在反思,我们是不是做的过于超前了?但是整个团队还是比较坚定, 说实话,创新有时候就是这样,当你做创新的时候,一定有反共识的东西存在。如果创新都基于共识的话,那这个产品一定是平庸的。
就像我们取消方向盘上的很多按键,把转向灯放到方向盘上,选择用屏幕换档。可能大家觉得我们是在学别人,但学要学思考,不能只学个模样。我们背后的思考很简单,过去我们所有的应用都是经由手机 OS,应用本质上是一个交互模式。很多汽车公司要和手机厂商合作,本质上就在想能不能把手机应用搬到车机上。但我们的观点是, 未来 3-5 年应该是大模型的时代,大模型就是一个 OS,过去的很多应用都要重写在大模型上,交互模式会发生变化,整个中间的交互过程会被省略,只要问它,它就会反馈结果,这是完全颠覆式的变革。
这里剧透一下,明年我们第二款车上市时,整个模型会迭代到 2.0。语音系统会比现在更强,现在的语音系统是基于四个小模型,明年第二款车上会完全变成一个大模型,中间小模型直接全部干掉,不需要识别在哪个区,语音输入之后直接出结果。明年还会做多模态,图片和语音同时识别。智驾在明年也会迭代一版,逐渐变成机器学习。我不是在这里画饼,我们会让应用直接上车。
在今天, 我们把车看成机器人,它的所有镜头就是它的眼睛,它很多的传感器就是各种触角,麦克风就是它的耳朵,喇叭就是它对外发声的嘴,交互的智能化核心算法就是大脑。 我们智驾全域都是用一套视觉系统。同时我们把视觉的算法系统放到各种应用里,大灯、远近灯光切换也是用同一套视觉系统。举个例子,我们有两个后向摄像头,当后方有电动车来的时候,门是开不了的。
张鹏:防止「开门杀」。
夏一平认为大模型,才是未来汽车真正的 OS|极客公园
夏一平: 对,我们同一套视觉系统已经下放到了很多应用里,下一步的视觉释放是换档和左右转向,下一版软件会把转向半自动化,视觉系统完全可以识别用户什么时候左转,什么时候右转,什么时候左转完,什么时候右转完。
我们是有思考而不是拍着脑袋就做了这些设计,这些能力都是预埋的。在月底的软件发布后,会把左右转向按键做到半自动化。
我们能识别进入车道前后自动打灭灯,下一步就是自动化拨杆,左转或右转不是用转向角度来判断,而是用视觉去判断进入哪边车道,再来判断左右转。未来开车的时候,用户不需要关注车是打左转灯还是打右转灯,也不需要关注灭灯。
同样的能力我们还能下放到换挡,在很多场景下完全能够判断用户要前进还是后退,用同一套的视觉系统就能完全识别。类似的功能还有很多, 很多算法的能力不是只能做一件事,而是让同一套视觉算法尽可能让车去实现更多的场景,这才是真正未来的智能汽车,这才是真正的智能机器人,它的视觉不止是做一件事,而是来做所有需要视觉去实现的事。
张鹏:到最后它本身是一个智能体,车就是智能的实体。在这个层面,确实需要更大胆,更非共识地推进。
夏一平 :我相信这一类现在看起来有违背于现实的非共识,比如自动拨杆,一旦做成后一定可以替代上下拨杆。从交互体验上看,不需要人操作和让人左右拨杆相比, 一定是不需要操作的体验感更好,而且用户一定会接受,因为用户永远会为好的体验买单。这也是为什么我们笃信,好的技术带来的体验上的壁垒一定会让产品成为最好的产品。