“具身智能机器人”如何改变世界？

虎嗅网 • 4月前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

随着人工智能技术的飞速发展，具身智能（Embodied Artificial Intelligence，简称EAI）作为AI领域的一个重要分支，正逐渐从实验室走向商业应用。EAI系统通过与环境的物理交互，赋予机器人物理实体感知、学习和动态交互的能力。这一领域的进步不仅对科技发展具有重要意义，也对社会经济结构产生深远影响。在2023年的半导体大会上，英伟达创始人兼CEO黄仁勋便表示，人工智能的下一个浪潮是具身智能。2024年云栖大会上，阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭表示，生成式AI最大的想象力不在手机屏幕，而是改变物理世界。

本文中，刘少山博士为我们带来他对这一前沿科技领域的独到见解。作者阐述了具身智能的三个核心原则，并对EAI系统的商业价值进行了深入分析。他指出，尽管EAI系统在学术和实践上已取得显著进展，但在商业化的道路上仍面临多重挑战，包括软件系统的复杂性、缺乏适合的计算机体系结构，以及数据运用的不足等。本篇文章不仅是其对具身智能领域的深刻洞察，也是对未来技术发展趋势的前瞻性思考。

以下为演讲内容：

人工智能是否能“取代”人？这个问题的答案我们还不知道。但我们这些做人文研究、政策研究的学者，是需要做好人工智能可能会取代人的准备，因为这个时刻一旦到来，世界将变得超乎我们的想象。我是做具身机器人研究的，所以我就讲讲在实体世界中具身机器人将会如何改变世界。

AI改变未来的三种可能

我的演讲主题是“具身智能机器人技术探索与研究”，大家可能对这个词比较陌生，希望通过简单的讲解，能让大家理解什么是“具身智能”。

在开始之前，我先提出的三个比较“激进”的想法，是对未来的一些可能发生事件的设想。

首先，AI代币是否会变成货币？ 什么是AI代币呢？它不是比特币，我们今天用的大模型的底层计价单位是Token——比如你用OpenAI，它是看你用了多少Token。当全社会所有的底层功能都是AI驱动的时候，全社会的计价单位都会变成AI Token。那么，它是否有等同货币的作用？这是我的第一个比较激进的思考。

第二，“计算效率”即“经济效率”。 芯片的作用是把能源转化为算力，芯片做得越好，就越能有效地把能源转化为算力。而软件的作用是把算力转为智能。两者结合，最终就是把能源跟智能连起来。所以赋能人工智能分两步，先用很强的芯片把能源转化为算力，再用很强的软件把算力转成智能。如果以后AI代币成为货币，那它的“锚”就是能源，因为追根溯源就是多少能源产生多少算力，多少算力产生多少智能。

第三，控制基础模型的公司或可垄断经济。 垄断的关键在于谁是发币者。今天发币的机构还是央行，但假如未来有一个名为“OpenAI”的公司成为发币机构——在各行各业都大规模依赖大模型的时候，最终控制经济的可能是公司——我们怎么防止此类事情的发生？可能学人文、学政策的同学需要考虑这件事情。

具身智能的发展史

最近“具身智能” （Embodied Artificial Intelligence，简称EAI）这个词在中文媒体出现的频率极高。到底“具身智能”是什么？我们需要先回顾EAI的发展历史。

1991年，麻省理工教授罗德尼·布鲁克斯（Rodney Brooks，“现代机器人之父”）在1991年发表的研究论文《没有表征的智能》（Intelligence without representation）中提出了一种对“智能的根本性”的重新思考。

布鲁克斯反对传统的认为智能必须基于复杂算法或内部数据模型（即“表征”）的观点。他认为， 智能行为可以直接从自主机器与其环境的简单物理交互中产生，而这种交互不依赖于预先设定的复杂算法。 他提出一个“行为主义智能” （Behavior-based AI）的概念，认为只有从与环境的直接物理交互中得到的智能才是智能。该概念强调通过与环境的直接物理交互来生成行为，而不是通过内部世界模型——这种方法的核心在于，智能系统不应该首先处理抽象的内部世界表征，而是应该能够直接响应外部环境刺激。这一理念对后续的机器人研究产生了深远影响，尤其是在自主移动机器人和实时处理系统的设计方面。

1999年，在罗尔夫·普费弗（Rolf Pfeifer）和克里斯蒂安·谢尔（Christian Scheier）合著的《理解智能》（Understanding Intelligence）一书中，他们提出了一种全新的智能理解方式。这种方式突破了传统认为智能仅仅源自大脑或算法的局限，进一步扩展了对什么叫作“环境中获取智能”的观念。

这本书的核心理论是智能是行为主体的整个身体结构和功能的综合体现，他们强调了身体对智能形成的根本影响，也就是“身体化智能” （Embodied intelligence）或“身体化认知” （Embodied cognition） ——这也是第一次人们正式将“具身智能”作为一个核心词提出。这本书的核心观点是什么呢？智能行为是通过身体与环境的直接相互作用产生的，而不仅仅是大脑内部的计算过程。这种观点与传统的以大脑或计算为中心的智能理解形成了鲜明对比。简单地说， 智能的行为是通过身体和环境的互动产生的，而不是通过“想”产生的。

2005年，琳达·史密斯（Linda Smith，行为学家）提出“具身假说” （Embodiment Hypothesis），从认知科学的角度对智能的理解提出了新的视角——我们的思维、感知能力以及其他各种能力的发展，都是人们通过身体与环境的持续互动而逐渐形成的。这种观点强调， 身体不仅是感知世界的工具，更是影响和塑造认知结构的主体。 她观察到婴儿的成长是通过跟环境的互动学到东西，这些行为展示了身体在认知过程中的积极作用。琳达·史密斯的工作扩展了我们对认知科学的理解，将传统关注点从大脑的内部机制转移到了身体与环境的动态交互上；也让科学界逐步形成一个共识，具身智能才是真正的智能。

具身智能的三个原则

上面这些基础研究，为我们提供了重要的指导思想。EAI，就是将人工智能融入机器人等物理实体，赋予它们感知、学习和与环境动态交互的能力。在此基础上，我总结出了三个原则。

第一，具身智能系统不能依赖预定义的复杂逻辑来管理特定场景。 这一原则强调，EAI系统应当能够灵活应对多变的环境，而不是仅仅执行固定的、预设的程序。这要求系统能够在没有详尽预设条件的情况下，通过实时的感知和处理，对环境做出反应。也就是说，EAI不能依赖预先“写死”的逻辑来处理复杂的场景。例如，很多自动驾驶公司，每一个新的场景都用新的代码去填，最后越填越复杂，最终证明它不是可伸缩（scalable）的方法。再例如，一个自动导航的机器人，在未知的环境中，应当能够根据当前的障碍物和地形，实时规划出最佳的行进路线，而不是单纯依赖预先编程好的路径。

第二，具身智能系统必须包含进化学习机制，使其能够不断适应运行环境。 进化学习机制允许EAI系统从经验中学习，并随着时间的推移优化其性能。也就是说，除了不要将程序“写死”，还要有一个学习的方法，有一个机制来从环境中提取智能。这类学习机制通常涉及一些机器学习算法，这些算法可以使系统根据其与环境的互动进行自我调整。例如，一个清洁机器人在不断清洁的过程中，会学习哪些区域更容易积累污垢，从而在未来的清洁过程中调整其清扫路线，提高清洁效率。

第三，环境在塑造物理行为和认知结构方面起着关键作用。 环境特别重要，环境决定能够学习多少东西。环境不仅仅是EAI系统操作的舞台，更是影响和塑造该系统行为和认知发展的关键因素——环境的每一个组成部分，从物理结构到社会互动，都可能对EAI系统的发展产生深远影响。因此，理解和利用这种环境影响，可以显著提高系统的适应性和智能性。例如，一个适用于户外救援的机器人，需要能够识别不同的自然环境特征（如河流、泥泞地面等），并根据这些特征调整其救援策略，以确保操作的安全性和有效性。

这三个原则共同构成了一个强大的框架，指导我们设计出更为智能、自主和适应性强的EAI系统。通过不断地学习和适应，这些系统有望在各种复杂和动态的环境中发挥关键作用。

EAI系统的商业价值

一个行业要商业化，需要所有的点都具备，将点连成线，才能成功实现商业化。今天的EAI系统达到可以商业化的地步了吗？我们先回到三原则来看，目前EAI系统究竟发展到了什么程度。

从原则一来看，现阶段已经基本完成。 很多人说具身智能就是“大模型+机器人”，而“大模型+机器人”完成的就是原则一对应的场景。

从原则二来看，至少在学术层面上已经成立。 2017年Nature communication上面发布了一篇文章，讲述了“深度进化强化学习”的框架（Deep Evolutionary Reinforcement Learning，DERL）。在文章中，研究团队制备出一种深度学习“游乐场”——DERL计算系统，并首次对“鲍德温效应”进行了验证，即在模拟进化实验中，这种深度学习系统可以快速地筛选出学习效率更高的形态。该系统可以在复杂的环境下学习极具挑战的运动和操作任务，以进化出不同的代理形态。

从原则三来看，现在已经基本可以满足。 Facebook已经发布了一个叫Habitat的虚拟现实开发环境。英伟达也放出它的自动驾驶的模型。目前，我们已经能够理解和利用环境影响，去显著提高系统的适应性和智能性。

可以说，这三个原则在学术和实践上已经被满足了，下一步就是怎么将其商业化。

说到商业化，又要回到宏观政策。 谁能做？这是核心的问题，因为这取决于供应链在哪里。 于是，我们把具身智能机器人拆解，去了解所有不同模块在全世界的占比是多少？惊奇地发现，中国占比是38%，位居世界第一。传统上认为做精密仪器很强的日本，占比只有12%。欧盟更是逐年在跌，今年是23%。而美国是26%。在中国占比的38%里面，大湾区占到中国的55%。

中国为何会有如此高的占比？过去20年，中国政府在新能源智能车投入了几万亿的资本。尽管这些资本投下去之后，仍有一些公司倒闭，但这并不是一个浪费。这些资本在背后孵化了一条很完整的智能供应链，比如，激光雷达现已成为一个很普世的传感器。 具身智能和新能源智能车在供应链的重合度有80%左右，所以这些供应链外溢到了具身智能。 在大模型这一块，平安有平安大模型，腾讯有腾讯大模型，只要解决好数据怎么获取的问题，这一块就不需要太过担心。

我们再看看粤港澳大湾区在具身智能关键零部件的份额占比。我们发现， 芯片在粤港澳大湾区现在还是一个空白——几乎每一项零部件的占比都很高，但是作为AI底座芯片的占比基本为零。 这是一个很大的缺失，怎么把大模型有效地运行在一个相对便宜、可商业化的芯片上，我们目前缺失这一环节。

我们正经历着两个时代，一个是PC时代，一个是Mobile Computing——PC时代的后一个时代。从宏观经济的观察角度来看，去年PC芯片的市场规模大约在550亿美金，但PC所赋能的生态市场规模大约在9000亿美金，这里差距在20倍左右。同样，Mobile chip市场规模大约在350亿美金，但是Mobile市场大约在8000亿美金的规模，是25倍的关系。因此，我们得出一个结论， 把芯片做好了，至少可以赋能20到25倍于它自身的市场。 当它的生态市场足够大，又有足够的资源投入的时候，商业价值就像滚雪球一样越滚越大，这是我们的立论。

此外，我们还可以从另一个视角来进一步验证这个立论。大概20年前我还是学生的时候，人们都还在用诺基亚手机——这是一款很老的机型，它能发短信、打电话，还能玩“贪吃蛇”的游戏。20年前的手机市场几乎可以算是饱和市场，因为其达到了人手一台的程度。但是，当年手机市场规模是100亿美金，今天我们的手机市场规模是8000亿美金。

那么，诺基亚时代的手机跟现在的手机有什么差别？差别在于现在的手机多了很多APP，这是一种完全不同的生态模式，而这种生态将市场扩容了近80倍。尽管今天我们看到机器人都很“笨”，可能只能完成一个功能，比如扫地机器人。但它就像我们当年的功能手机，只能操作最基础的功能。因此，我们预测， 机器人具身智能的市场会有相似的趋势。如果最后机器人生态要商业化大发展，那么未来它不能是功能机，应该是一个智能机的形态。 从算力的角度来看，功能机90%的算力在打电话，而智能机90%的算力在APP，这是其本质的区别。

未来的设想与挑战

那么，我们想在具身智能的发展层面做些什么呢？今天我们研究了各种机器人的设计，基本是三个功能——感知、定位、规划。这些功能运用了多少算力呢？大概在95%。也就是说，今天大多数机器人95%的算力都用在了基础功能上，没有额外算力去完成其他功能。 我们希望的是，尽可能做到将20%的算力用于基础工作，预留出80%的算力给智能和应用层面。如 果能达到这样的程度，就可以迎来一个大发展的周期，可以研发各种有趣的应用。 比如，在智能车上可以有很多娱乐系统，可以看AR、VR，有机器人在家里帮你做家务，有自动医疗车帮你看病，这是我们对机器人最终生态的一个设想。

但是在这个生态来临之前，我们遇到了三重挑战。

第一，机器人所需的软件系统远复杂于过去任何软件系统。 现在大模型在与用户交互的过程中，就已经损耗很多的算力。如果在机器人身上，比如手臂如何移动，如何开发智能化地图，这些算法都十分复杂。这样的情况带来了怎样的直接影响？我们如果去看近年来两类上市公司的报表，一类是谷歌、微软，一类是自动驾驶公司，关注其每年的营收放在研发上的比例，会发现自动驾驶公司85%~90%的营收放在研发上，员工个人能为公司创造的价值基本上是0。再看谷歌和微软，他们大概20%的营收放在研发，但是员工人均能为公司带来几百万美金的收入，这是其成功的原因。谷歌和微软的可扩展性（scalability）是随着他的数据和算力而变化，不是随着人；但是自动驾驶是随着人变化的，有多少人就有多少能力，就有多少代码，所以这个软件栈（soft stack）是很难商业化的。

因此，我们得出结论，想解决软件系统过于复杂的问题，必须先解决一个问题，那就是如何 把软件栈简化，让scalability随着投入的算力和数据变化，而不是随着投入的人而变化 。

第二个挑战是目前没有一个适合的计算机体系结构给具身智能用。 因为具身智能很复杂，它的软件栈就很复杂，它的计算就更复杂。简单地说，就是我们需要经过很多轮的优化。所以目前我们设计的目标是20%放在基础算力，80%留给上层的应用。

第三个挑战是我们现在对数据的运用并不充分。 互联网数据值多少钱？今天如果你去问扎克伯格，他的答案会是：一个互联网用户的价值是600美金。目前互联网世界大概有50亿的用户，所以大概是3万亿的市场价格。那么，如果放在一个机器人上，要投入多少钱来提取数据？大概是1000美金。再推测一下，当机器人达到最终态的时候，这个世界会有多少机器人？马斯克推测大概会有100亿台机器人。如果我们将两者相乘，可以预测，未来达到饱和态的时候，它将是一个10万亿美金的市场。

但今天最大的问题是我们没有很好的数据收集方法。 比如，OpenAI用的是互联网的数据，它的收集是天然的，互联网公司都可以收集。但是由于机器人公司目前并无恰当的数据收集方法，导致很多厂商把数据扔掉，完全用不起来。因此，怎样设计一个数据收集的计划，对未来智能的衍生将起到重要作用。

（本文内容由刘少山在前海国际事务研究院主办的“人工智能与智能机器人对社会发展与经济影响”主题研讨会上的发言整理和扩充而成。）