专访宇树科技王兴兴:在人形机器人的巨变前夜,做一个敏锐的谨慎派
文 | 黎诗韵
编辑 | 靖宇
在目前大热的人形机器人、具身智能赛道,宇树科技是最受关注的公司之一。这家公司最大的标签是硬件实力强——一方面是性能,去年其首款通用人形机器人 H1 能奔跑、原地空翻、踹不到,拥有全球几乎规格最高的动力性能;一方面是成本控制,今年其第二款人形机器人 G1 价格仅 9.9 万元,而同行普遍在数十万、乃至百万元。
这背后建立在积累多年的四足机器狗技术上。四足机器狗和双足机器人的底层技术相通,宇树只用 3 个员工、不到 6 个月时间,就做出了上述人形机器人产品。 谈及硬件实力强的原因,宇树科技创始人王兴兴对极客公园表示,主要是做了十几年、在软硬件上积累了大量的认知和经验。
2013 年,还在读研的王兴兴,自己设计电机、控制算法等,用不到两万块研发出了第一台四足机器狗 XDog,这几乎是全球首个四足机器狗的技术方案;2016 年,当 XDog 在海外展现出市场需求,王兴兴离职创立宇树科技,不久后极客公园旗下的变量资本,注意到了王兴兴,并于次年领投了其天使轮融资。
目前,宇树的机器人本体(硬件)被全球各大科研机构、科技公司购买,用作研究。而其四足机器狗目前在全球出货量第一,包括万元的消费级机器狗 Go2 及最其新轮足版本 Go2-W,用于工业级场景的 B2、B2-W。年初,宇树披露了最新一轮近 10 亿元的 B2 轮融资,这也让它成为目前机器人赛道估值较高的公司之一。
不过,AI 为机器人这个赛道带来了新的变量。
在王兴兴看来,AI、而不是硬件,才是目前人形机器人行业最大的掣肘。两年前 ChatGPT 的出现,让人形机器人有机会进化出真正智能的大脑,变成有自主感知、决策、执行能力的智能体。它将在工业、家庭等场景形成通用服务能力,从而作为全新的生产力供给,带来万亿规模的市场机会。
在王兴兴看来,硬件未来或许会处于从属地位,比如当一个超级强大的机器人 AI 模型出现、哪怕用垃圾堆里捡的一堆机器人零件也能干活。不过,他并不打算改变公司的目标和重心,宇树的目标仍然是「做好产品」,AI 只是少量投入、且是为了更好地服务客户。
宇树代表了目前人形机器人公司的一种谨慎、务实选择。 在王兴兴看来,目前人形机器人 AI 的进程还非常早期、甚至不到「GPT-1」水平,表现为机器人没有很好的通用性和泛化性,商业价值不大。而技术进化的路线又没有明确、数据也非常缺乏,因此全球各大公司对人形机器人的投入还远远不够,包括特斯拉、英伟达。
他说,技术的推进将由「全球共创」,并且很快就会有突破——因为,AI 技术呈现出阶跃性突变的特点,进步总是突然发生。而对于宇树来说,重要的事情是保持学习、跟进新技术,这能让公司存活下来、甚至继续领先。
以下是极客公园与王兴兴的对话,与现场分享进行了融合后整理:
AI 技术不成熟,工业场景的落地还未到时候
极客公园:最近不少人形机器人公司都在提工业场景的落地商业化,包括前不久 OpenAI 合作的 Figure 02 也宣布进入宝马工厂。你怎么看今年人形机器人行业的变化?工业场景的落地是否在加速?
王兴兴: 我个人感觉其实没有太明显的变化,只是说会有进步,以及会有一些尝试性落地。但目前大家基本上还是处于试点阶段,觉得工业方向有价值,先尝试下落地部署。
极客公园:有人说今年会是 POC ( Proof of Concept ,概念验证)之年,你怎么看?
王兴兴: 只能说在一些相对容易落地的小场景、工业的局部环节能做点事情。但大部分还是针对特定环节进行定向训练,成功率也未必特别高,离通用场景还比较远。
极客公园:关于应用场景,似乎你们之前说会看重介于工厂和家庭之间的能源场景?
王兴兴: 我们公司还是偏工业一点,目前大量工厂对劳动力的需求是比较大的。但能源行业大部分全是自动化设备,它对人力的需求我感觉没有那么多。
极客公园:你们现在在工业领域有哪些落地?
王兴兴: 比如我们过去几个月有跟蔚来的汽车工厂合作,现场部署了我们的人形机器人做搬运,有激光雷达定位、机器人操作、AI 识别等,整个过程是全自主的。
虽然我们也在推进落地,但可能推进的速度和效率没有那么快。我们公司还是比较有耐心的,不是说一定要今年或者说明年在工厂里部署多少台,其实没有把自己逼迫那么紧。 因为我觉得目前技术发展水平还不够,没有达到真正商业闭环,比如让机器人能达到一个工人的价值。
所以我们还是尊重整个市场的反应,等到技术和产品成熟到一定程度了、已经有一些更好的商业推广的势头了,我们再大规模地推广。
极客公园:大家都在提人形机器人进入汽车总装场景,你觉得什么时候能实现?
王兴兴: 汽车总装很难,因为汽车总装最大的一个问题是汽车的零部件太大了,一般小的人形机器根本搬不动。而且车辆又特别复杂,要把机器人伸进去装,难度太大。目前进入汽车厂商的上游供应商可能还更容易一些。 极客公园:上游供应商指的是?
王兴兴: 生产一些仪表、线缆或者什么,这可能简单一点。总装厂的难度其实有点大,个别总装厂里部分工序还是能做的。
极客公园:在机器人底层 AI 技术还没有真正突破时,怎么看大家钻到细分场景去做落地的意义?现在针对细分场景打补丁,会不会难以跟上底层 AI 的技术进展?
王兴兴: 其实每个行业肯定要先尝鲜、先推进一些事情,不可能等所有的技术或所有的条件都满足了,再去做一些商业化或者落地的事情。如果有能做的,大家可能都会开始尝试,这是毋庸置疑的趋势。
极客公园:你之前提到,明年年底前全球至少会有一家人形机器人公司实现工业场景的商业闭环,这个判断是怎么做出的?
王兴兴: 原因也比较简单,目前全球整个的机器人 AI 技术的进步还是非常快的。技术一旦变得更好,那有些简单工业场景的落地就可以做了,一旦比如一个工厂的一台人形机器人设备,能够产生正向商业价值,其实很多的工厂都会买,这是不可阻挡的一件事情。
我觉得到明年底和后年,人形机器人真的可以大规模地在工厂里铺起来。这个是非常快的,所以当务之急还是要把 AI 做得更好一点。
宇树机器狗被用于工业场景 | 图片来源:宇树科技
人形机器人 AI 不到 GPT-1 水平,原因是数据和技术路线不清晰
极客公园:如果把现在具身智能的智能水平跟大语言模型做对比,你觉得现在是相当于 GPT 几的阶段?
王兴兴: 我觉得还没到 GPT-1 的水平。具身智能整个的模型进展是有点慢的,还没有突破一个临界点。现在就有点像 ChatGPT 出来前一两年,机器人 AI 还是有点笨拙,只能做一些非常简单的工序、而且执行的成功率有点低。 极客公园:这是不是悲观了点?
王兴兴: 没有,这基本上是事实。我觉得目前至少公开的、大家看到的技术,还没有到。 极客公园:你觉得达到 GPT-1 的标准会是什么?
王兴兴: 一定的通用性和一定的使用价值。现在很多场景都是固定工位、工序的训练,能做点事情,但泛化比较差,你训练了什么就只能做什么。
你可以看到前些天,特斯拉才刚开始招数据采集的人。你说数据都没有到位,这个模型怎么出来呢?所以就 GPT-1 都没有。 极客公园:之前看到特斯拉有通过摇操的方式获取数据?
王兴兴: 已经做了一点点,但是很小的、固定的一部分功能,比如把一个电池从这里拿到这里。这当然是可以的,但它跟我们想象中的通用机器人模型完全两码事,跟通用的基层模型还差挺远。 极客公园:所以 AI 技术没突破主要是数据的问题?
王兴兴: 数据是一方面。现在很多机器人数据都很杂、不太干净,甚至也不是给机器人专用的,就不是真正能干活那种级别的数据。所以只能做些简单的事情,成功率不是特别高。 极客公园:应该怎么解决数据问题?特斯拉、谷歌比较强调遥操、英伟达强调仿真,你怎么看?
王兴兴: 遥操、仿真都有需要的,各有优缺点。
比如虚拟数据能大概让机器人知道要往前走、或者拿个什么东西,但是真正要达到非常精密的操作,误差会比较大。你可以用虚拟数据做机器人的训练,但最后要让操作准确度达到 100%,还是需要真实的数据。我觉得如果有实力的公司,像特斯拉,多弄点人搞真实数据会比较好。
不过我个人感觉,机器人的数据量没有大家想得那么夸张。 现在最大的问题是。现在每家搭的模型都不太一样,每家的想法也不一样,没人知道哪个模型是好的、也没人知道哪个什么技术路线是真正最后能跑出来,都比较模糊。
机器人仿真数据 | 图片来源:宇树科技
极客公园:行业主要分为怎样的技术路线?
王兴兴: 目前市面上比较常见的有两种。一种是把大语言多模态模型直接给机器人用,然后再加一部分机器人底层的操作运动集等,让大语言模型去调用一下、完成一些事情,这是目前最常用的一个架构。
有些公司可能希望更端到端一点,像特斯拉目前要搞的就是这个方向。它直接用模仿学习,让人采集大量的动作数据去训练机器人。它确实堆数据是有效果的,比如今天干这个活堆一部分数据,干一个活堆另外一部分数据,最后这两个活都能干,但更大的验证不太确定。
极客公园:为什么技术路线还没有形成共识?
王兴兴: 主要是模型和最终结果都没有看起来说,哪个技术路线特别特别好。
光硬件都没有办法形成共识,比如一个摄像头具体应该装什么位置、装几个,传感器数据应该怎么采、要不要触觉传感器,有的不想要灵巧手、有的需要很多手指……每个人的想法都不太一样。这就导致了其实很难评价哪种正确、哪种错误。
其实在 ChatGPT 之前大语言模型也有非常多的架构,只是后来发现这种架构更有价值,就把其他架构淘汰了。现在人形机器人有点像 ChatGPT 出来的前一两年,实际上没有哪家敢保票,说自己的方向是绝对正确的。
极客公园:那你自己更相信哪一种路线?
王兴兴: 我感觉可能跟他们想法都不太一样。我们其实目前不是特别急,一方面是看能不能做一些新的模型,另一方面这些常用的我们也会用。我们就玩玩吧。
极客公园:大家说智能汽车是机器人的一个子集,现在很多车企在入局人形机器人行业,车企从自动驾驶的端到端来做机器人会更有优势吗?
王兴兴: 因为马斯克在搞人形机器人,所以车企对这块肯定是比较关注的。大家希望在机器人上用到像 FSD 一样端到端的自动导航技术,但很多传统的自动驾驶还是偏传统的技术,比如机器狗在一些园区做巡逻的这种技术。
把 FSD 自动驾驶用在人形机器人上面,大家做得不够好。包括特斯拉,因为特斯拉大量的人力都放在 FSD 去了,人形机器人相对投入没那么多。当然也有一些创业公司在做,但目前还是不多。
极客公园:你认为机器人 AI 什么时候能实现 GPT-1 的水平?
王兴兴: 明年年底差不多,全球至少有一家公司应该可以搞出来。可能比这个时间还更快。 极客公园:虽然技术路线还不清晰,但为什么相信能这么快实现?
王兴兴: 比较简单,AI 技术都是阶跃性的。现在有点处于一个平台期的感觉,但技术进步本身非常快,可能今天没做出来,突然明天就做出来了,它就是突变性的。
比如我们在研发的时候,经常发现非常惊喜的事情:有同事调了(机器狗)很多天都调不好,它完全地上打滚啥都干不了。但突然一个晚上,你给它训练一个新的模型放上去,第二天早上效果就非常好。这种情况在 AI 里面很常见,一开始可能真的是很烂,突然间变得非常智能。
另外,这个行业越来越热了,有更多的聪明人、更多的钱在关注这个行业,那整个速度就会变快。如果还是按过去那种机器人 AI 研发的进度,可能等个十几年或二十年都等不到。所以目前,我还是比较乐观。
全球人形机器人公司对 AI 的投入都很少,处在观望、共创阶段
极客公园:目前你们在 AI 上的投入怎么样?
王兴兴: 说实在的,我们在国内在机器 AI 里投入算是比较少的,跟别家比起来。 极客公园:但你之前说希望能更相信、更投入 AI?
王兴兴: 对,但是毕竟财力和精力有限嘛。AI 太烧钱了,光 GPU 算力都烧不起。如果投入太大,容易盈亏不平衡。所以我们还是克制一点。
极客公园:从这个角度上来说,有更多资金的大公司会比创业公司更有优势吗?
王兴兴: 我觉得还好。核心原因是,在目前技术路线不是特别清晰的情况下,你哪怕有很多钱和资源,也使不上太多劲。在这个阶段,你可以看到虽然大公司都挺关注的,但投入其实不多,其实都很保守。
特斯拉的人稍微多一点,至少有几百人,别的公司大概可能有几十人。投入远远不算大。国内其实大家投入也都挺克制,没有说哪家疯狂投入啊。
说实在的,它不是说一家公司有多少钱、有多少人就能一定能把它做出来。因为在这种前沿的、全球都没有人做出来的情况下,某种程度上你可以认为看运气、或者看某个天才人物,把这个事情推动了。
极客公园:这看起来很反差,外界都觉得人形机器人行业很热,但实际上大家投入不多。
王兴兴: 这跟大语言模型比起来真的是九牛一毛。
因为大语言模型的技术路线相对确定了,如果你去看一下 OpenAI 的早期发展经历,它做的事情其实很杂,包括机器人、AI 模型等等。后来它们是发现 GPT 的方向比较正确,通过投入算力和资源、可以大力出奇迹,才重注这个方向。它们并不是在路线还不太清楚的时候乱投入。
极客公园:那人形机器人相比自动驾驶,哪个更远?
王兴兴: FSD 更快,基本上特斯拉在这个技术路线上就跑通了,商业价值目前都完全看得到。所以它们现在投了大量的资金和人力去做 FSD。
我觉得这也是为什么它们人形机器人的 AI 进展没有那么快,因为目前的技术路线没有特别清晰,所以投入跟 FSD 比起来真的是少很多。 极客公园:一方面是技术随时会有突破,另一方面大家又不敢投入,那怎么跟上技术进程?
王兴兴: 这个不太好估计吧,就看具体的技术进展。如果突然觉得技术好了,你就多投点钱。如果技术不太好,那就少投点钱。这其实是很动态的一件事。
极客公园:技术突破主要是靠学术界还是科技公司?
王兴兴: 目前还是全球共创的阶段,很难说是某个实验室、某家大公司。就像 OpenAI 能做出 GPT,也用到了谷歌的 Transformer 技术和其他公司的一些成果。
很难说某家大公司是技术最领先或者产品最领先的,国内国外都有可能,大公司或许机会更大一点,但都不好说。AI 这个领域就是这样,今天你领先,过了没几天别人更领先了、你原本老的东西都不能用了,它的变动性和风险系数还挺高的。
我们公司还是希望全球共创、和大家一起努力,之后再根据整个产业的动向做相应的调整。
极客公园:为什么你之前说,这次技术的突破大概率是由别的公司完成?
王兴兴: 这其实是完全不可预计的一件事。不过我觉得美国的概率会更大一点,因为它们 AI 人才更多一点、算力也更多。
宇树的人形机器人 G1 具有超越常人的灵活性 | 图片来源:宇树科技
目前的大语言模型无法通往 AGI,但具身智能可以
极客公园:你提到相比于大语言模型,具身智能是实现 AGI 的最有效途径。这种物理世界的 AGI 和虚拟世界的 AGI 是一样的吗?
王兴兴: 我觉得是统一的。我认为真正的 AGI 需要有物理肉体,纯虚拟环境的 AI 可能没办法诞生 AGI,最后它一定要和身体做整合。
我之前提到过大语言模型有「幻觉」问题,「幻觉」就是虚拟环境导致的。就像大脑在做梦,你没办法判断这个虚拟环境的真实性,就会迷失。就像把你的大脑被连接到互联网上,看到各种图片、视频,没准过一段时间你就已经完全没办法区分什么是真的、什么是假的。所以要实现 AGI,还是要结合具身智能和机器人。
极客公园:像 Sora 这种模拟真实世界的物理模型,能解决这个问题吗?
王兴兴: 我觉得这是个很好的技术方向。它目前已经能做一部分事情了,比如生成一个跳舞的小人,但离质的飞跃还有点难度。
极客公园:具身大模型跟大语言模型,最终会形成一个怎样的关系?
王兴兴: 语言模型未必是给具身模型的必选项,它只是其中一部分。举个最直观的例子,比如在工厂里做事的一个机器人,他完全可以不说话,比如说我给它一个任务,给它看一张照片、或者给它敲一个数字进去,他只要能干活就行了。具身模型最核心的是干活。
极客公园:从具身智能来看,实现 AGI 的标志是什么?
王兴兴: 我觉得还是机器人能真正达到自我学习、自我干活,或者至少大部分活都能自己干。比如你随便找一个场景,家里、工厂,只要把人形机器人拉过来,直接跟它说要做什么事情,它一下就能学会做,至少要达到这种级别。
极客公园:最终就是开箱即用?
王兴兴: 差不多。甚至如果再高级一点,需要机器人能持续性地自我学习。
因为现在的 AI 都是靠人产生的数据驱动的,但未来是不是可以不要人为数据、让它自己生产数据,自我驱动、自我学习和进化。甚至你啥都不用管了,它连芯片都能自己造。
极客公园:当真正的 AGI 时刻来临,它会带来怎样颠覆性的影响?
王兴兴: 我觉得整个社会的变化会非常非常大。普通人可能不需要上班,生产力将由机器人承担。我觉得这会真正解放人类,让每个人都可以吃喝玩乐,每个人都很快乐,每个人都有大的房子住,每个人想去哪里玩去哪玩,每个人都很自由。
而且我觉得这个过程挺快的,5 年内有可能实现,最多不会超过 10 年。AGI 的未来其实并不遥远。
消费级机器狗 Go2 及最其新轮足版本 Go2-W | 图片来源:宇树科技
宇树的目标还是做好产品,并学习和跟进新技术
极客公园:外界都知道宇树的硬件做得好,国内外的高校、科研机构都买你们的机器人本体做研究,为什么你们能做好这件事?
王兴兴: 对我们公司来说,最大的一个优势就是,我们在这个行业做了很多年了。我自己差不多从 2010 年就开始做小的人形机器人,2013 年就正式开始做电驱动的四足组机器人,已经有十几年了。
所以,我和团队,在机器人硬件和软件方面积累了大量的认知和经验。无论是硬件的生产制造、降低成本、提高可靠性,还是销售渠道,还是技术的研发等等。目前我们整个公司规模在全球来说也是比较大的,这些多方面的因素让我们相对很多别的机器人公司有更多优势。
我一直坚信一点,其实世界上的聪明人很多,但你真正要把这个行业做得很好,其实主要还是保持足够长时间的学习与进步。只有这样,才能真正把这个行业做好。
极客公园:坚持研究机器人十几年,这背后是源自什么?
王兴兴: 我确实比较喜欢机器人,但其实我从小对所有的科技都比较喜欢,就从几岁的时候开始,科学、物理、化学、生物这些学科我都很喜欢。
09 年读本科的时候,机器人变成了我的一个职业倾向。无论是机械结构设计、电器电机控制、包括 AI 算法等等,我都比较喜欢。如果有些人觉得一个方向做久了有点厌,对我来说可能反而还好。比如说今天可能玩玩机械玩腻了,明天换一换玩 AI,再玩腻了就回头玩玩电路板。
所以我的兴趣点还是非常非常多的,而且随着每次有新的创新出现,对我来说是非常非常满足的一件事情。
极客公园:你说现在 AI 才是整个机器人行业最重要的变量,这会带来哪些机遇和挑战?
王兴兴: 我一直认为机器人行业现阶段最大的限制,还是 AI 不太够——AI 模型、AI 的训练数据集、AI 的场景的落地部署,都完全远远不够。当然硬件目前也不够,但是它没有理论上的门槛,只是工程上的问题,比如把成本做得更低,性能做得更好、外观做得更加极致、功能更加丰富等,时间是可以预估的。
随着 AI 技术越来越成熟,大家对硬件的需求会越来越低,包括硬件的自由度、数量、外观灵活度等等。甚至我一直感觉,当未来人形机器人的 AI 真正突破之后,你从垃圾堆里找几个关节电机,把它像个人那样搭出来,它就自己能走路甚至能干点活,这都是非常有可能的事情。
我们的立身之本肯定是机器人本体,不过我们在 AI 方面也做了不少的事情,但比不上纯粹的 AI 公司。我们之所以要做 AI,也是为了让客户知道我们机器人的 AI 效果怎么样,你需要一个初始的软件系统。我们的核心还是希望有更多客户来用我的机器人,他哪怕买了硬件把软件(AI)全给删了,这也没问题。
所以我们现在也积极地跟各种大模型公司合作,我们非常愿意直接在我们产品上标配它的大模型。可以这么说,如果哪一天有人把 AI 机器人的模型做出来,我可以保证年底之前直接给他做 10 万个人形机器人。
极客公园:你怎么定义公司的目标?如果说 OpenAI 目标是成为最顶尖的技术公司,但这似乎不是你们的目标。
王兴兴: 还是希望把产品做得更好一点吧,比如硬件成本、外观性能、客户友好性、包括功能等等。我们还是希望大家能接受我们的产品,最终让产品在工厂、服务业、家用等场景真正产生价值。其实无论客户对我们的印象是硬件还是软件,我觉得都无所谓。我们会投入 AI,但我们不会是搞专门搞基础 AI 的公司。
极客公园:现在有越来越多人形机器人公司出现,有一些也拿到了不错的融资,你怎么看待竞争?
王兴兴: 我觉得因为行业确实非常热,所以很多人进来,这是不可避免的一件事情。但是对于我们公司来,包括对我自己来说,我们一直坚信就是我们要超越的,主要还是我们自己。
因为我们目前无论是技术层面、包括公司规模,都比市面上大部分公司都还是要好很多。所以如果我们盯着对方,其实也没有太大帮助。我自己,包括我们公司,主要是希望每天、每个月、每年有更好的产品技术,或者在商业化策略上有更好的进步。保持进步是最主要的一件事情。
极客公园:你自己花多少精力在探索新的东西上?
王兴兴: 时间不太好说,不是特别确定和固定。
极客公园:身处 AI 大变革的时代,一方面技术还看不真切、但另一方面技术又会随时涌现,这是一种怎样的心情?
王兴兴: 我觉得还是非常激动人心的,你只能保持探索的、学习的状态。比如说有什么新东西了,要尽早发现苗头,尽早把握机会。这一点,我们可能比大公司更有优势,因为大公司内部的流程体系有一些限制、团队会面临更激烈的资源竞争等等。
中小公司更能保持足够的前沿技术的敏感度,你得看到未来,你得足够灵活。如果你能预估未来 1 年、2 年、甚至是 5 年以后的整个技术路线,包括整个产品格局,整个世界格局是怎样的,你提前做布局去做,你肯定死不了。你能不能做第一不太清楚,但至少做到前几名,还是非常有可能的。