AI大模型降本提效，“通用“和"泛化”成为智能驾驶关键问题

砍柴网 • 1年前扫码分享

随着生成式人工智能的爆发，AI大模型持续升温成为当下最热的风口，这股热潮也影响到了自动驾驶行业。虽然AI大模型目前发展尚不成熟，仍存在逻辑错误，数据偏见，算力需求高等问题，但在算法、数据闭环、仿真等技术环节，AI大模型或将全面赋能自动驾驶。

近期，由辰韬资本主办、中信证券协办的“未来以来创见未见”第二届智能驾驶商业化落地与产业发展趋势主题研讨会在北京举行。在主题为“AI大模型如何赋能智能驾驶”的焦点对话环节，清华大学人工智能研究院视觉智能研究中心主任邓志东教授、北京极佳视界科技有限公司CEO黄冠博士、北京恺望数据科技有限公司CEO于旭、苏州智加科技有限公司首席科学家崔迪潇博士参与了讨论。

在AI大模型的深度赋能下，未来整个智能驾驶行业将以更高的效率发展，行业将迎接更多可能性和更大想象空间。在场的多位专家均表示，大模型之于自动驾驶来说，核心是解决了整个研发过程中技术迭代的效率问题，而大模型真正发挥其价值，还需面对通用性和泛化能力的问题。

扩宽自动驾驶产业道路，大模型为行业带来更多可能

尽管AI不能算是新事物，大模型也不是新事物，但AI、大模型跟智能驾驶结合在一起，它就变成了新鲜事物。随着AI大模型的快速发展，其有望完全改变自动驾驶的开发方式。

“自动驾驶大模型是必须的。”北京极佳视界科技有限公司CEO黄冠博士表示：整个自动驾驶行业发展经历了三个阶段和变革。第一阶段是Waymo带来的L4 Robotaxi进行了一套系统化解决方案；第二个阶段是特斯拉那一套靠视觉和AI带来行业成本的降低和泛化性的提升；而第三次则是这次大模型给行业带来的想象，它会把这个行业的上限无限撑高，走向L4或者AGI，并且同时提升数据、研发、测试等各个层面的效率。“AI大模型将成为自动驾驶发展的新引擎。”

来自清华大学邓志东教授表示：“大模型赋能自动驾驶，需要以人类的自然语言、人类的思维贯穿智能驾驶的感知、预测、规划、决策、规控等整个链条和环节，同时还需要综合运用多模态的视觉语义、常识以及专业知识，让它有跨任务、跨领域、跨场景的泛化能力。它会带来一场大的变化。”

“有大模型，相应的就有小模型、普通模型，那说明一定有一些问题是普通模型解决不了的，需要用大模型去解决。我更多会站在应用的角度去看大模型，比如它是否能做一些普通模型做不了的事情，以及它是否能做得更好、更快、更便宜。”崔迪潇博士表示，如果要将大模型赋能到自动驾驶的研发中，核心要看的是在整个技术研发迭代过程中，大模型是否能让自动驾驶研发效率提高，研发成本降低，还能让性能持续稳步地提升。

而在清华大学人工智能研究院视觉智能研究中心主任邓志东看来，现在各家车企做的大模型或小模型，可以看成是一只家养的狗，而真正的智驾大模型应该是野生的狗。“野狗总比家养的狗生存能力要强很多，它们生存在野外，接触到的环境远比家狗接触到的要恶劣、复杂，即它不能囿于家养的环境和数据，而是在真正意义上的开放域海量数据之上产生的。”

真正的智驾大模型是在真正意义上的开放域海量数据里产生。恺望数据CEO于旭表示：“大量参数的涌现让我们在自动驾驶可以用新的思考、新的方式带来行业的规模化，包括这些新的体验感。大模型是带来了曙光，我们认为这个曙光可以分阶段地进入到自动驾驶行业里，比如可能先从局部进入再逐步发展到全局，这是一个长线的过程。”

尽管，大模型目前在自动驾驶领域应用还不成熟，但AI大模型能助力自动驾驶技术迭代升级，加速高级别自动驾驶的落地，自动驾驶更快迎来奇点时刻。

通用性和泛化能力，自动驾驶未来发展的无限可能

对于智驾大模型来说，其核心关键是解决通用性和泛化能力。就AI大模型的通用性、泛化性等新开发范式而言，其能够大幅提高研发效率，压缩设计和迭代的过程，从而带来显著的效率提升。

聊到智驾大模型的核心技术，智驾科技崔迪潇博士提出：“大模型需要有通用性，本质上要解决跨任务的通用性，意味着它需要能解决不同的任务，有跨知识领域的通用性。GPT里面就有通用性，能够把所有不同的任务统一到自然语言处理的框架中。”

“通用性与泛化性是关键，成熟的自动驾驶大模型一定要结合语言模型和多模态。而要具备通用性，需要结合一套自监督的范式去实现压缩物理世界。”极佳科技CEO黄冠博士也肯定了这两种能力必为自动驾驶发展的关键。

那么，该如何解决智驾大模型通用性与泛化性这一核心问题呢？

对此，黄冠博士提出：“第一，需要把语言引进来，因为语言有很强的认知能力，比如我知道我开车我不能走悬崖。现在这一套自动驾驶方案既识别不了悬崖，也不知道能不能走悬崖，但是语言的大模型是知道不能走下悬崖的。第二，需要针对物理世界场景，尤其是视觉场景需要有一套方式去进行自监督地压缩。多模态则是认识各种悬崖的，它可以再跟自动驾驶结合起来，加强自驾大模型对世界的泛化认知和感知理解能力。”

智加科技崔迪潇博士也强调，智驾大模型更多是汽车行业的垂直模型，它们分布在各个智驾技术栈，或者是特定场景的端到端；既要强调泛化性，也要强调可控性，同时它的一致性也是要保证的。“但事实上系统泛化能力提升会带来一些问题，比如它的某些涌现可能对智驾系统是不可控的、也是不可接受的。所以，我并不认为在智驾领域存在真正意义上的大模型。”

针对智驾大模型在未来发展，崔迪潇博士认为：“当前自动驾驶行业，大模型已经在发挥一些作用，比如感知端、驾驶决策端，我们都看到了大量很好的技术演示和应用。但必须要提醒一个事实，即大模型依然没有脱离深度学习框架，不可避免地会存在统计性和概率性问题，大规模应用中一定有它处理不了的场景。对于所有做L4的同事和同行来说，必须要保持警醒，大模型可以加速L4到来，但它不能解决所有L4的问题。”

即使大模型现在仍不成熟，但其发展潜力已被行业紧盯。于旭表示：“大模型让我们看到算法的门槛变低了，这个时候就像过去的移动互联网一样，当时有很多的APP，现在在算法新的时代里面，又有非常多的AI应用。我们在创造更好的大模型，这个技术手段也希望能应用到更多的商业场景中，使得AI应用有不断的提升。它给我们带来了很多希望，我还是非常看好这一技术的。”

在当下，AI大模型的强势赋能自动驾驶领域，为自动驾驶领域注入一针“强心剂”，更是给自动驾驶未来带来无限可能。