90后清华博导的“造人”计划
10月14日,在位于清华科技园的星动纪元会议室,虎嗅与创始人陈建宇进行了一对一交流,他很谦虚地告诉虎嗅:在与资本打交道上,还要多学习。
自此两天后,就传来了星动纪元Pre-A轮融资3亿元的消息,投资方包括阿里巴巴、联想创投、清流资本、元璟资本等。
陈建宇的另一重身份,是清华大学交叉信息研究院的助理教授和博士生导师。在做出令自己满意的产品后,这位低调的年轻科学家,决定第一次正式接受科技内容平台的对话。
陈建宇真正为之自豪的,是他们的第六代人形机器人STAR 1实现了室外真实场景下3.6m/s的最快速度。“即便是特斯拉的擎天柱机器人跑得也没我们快。”陈建宇说。
据悉,星动纪元采用了端到端的AI路径,在这一模式下机器人通过强化学习的AI方法,会模仿人跑步的形态,跑步时双手也会微微摆动保持平衡。
2022年,陈建宇就打造了小型人形机器人的原型机,那时他就跟姚期智院士多次交流,怎么去做人形机器人。并在ChatGPT发布不久,做出了全球最早的大语言模型结合人形机器人的工作。
能够在早期捕捉到大模型带来的技术变革,与陈建宇的经历高度相关:与行业一些从计算机视觉转向机器人领域的路径不同,陈建宇是典型的具身智能原教旨主义者——从清华大学本科、加州大学伯克利分校读博、到毕业后在清华大学交叉信息研究院任职助理教授,他一直在做机器人的学术研究。
虽然这个赛道也有着不少野路子玩家,但陈建宇认为,没有强大的学术背景,很多前沿的事情可能都想不到,或者只能看到较为成熟的方法。
他现在比较看好的路线是“打通端到端”。不能分开做感知网络和决策网络。“这样相当于多个小模型堆在一块,无法像大模型那样scale。”虽然具身智能玩家都在下注端到端,但“真正能做端到端的不多,包括一些知名创业者做的方案很多都是直接用GPT的。”
相对于大脑(语言图像处理能力)或本体,陈建宇认为“小脑”(物理交互)是目前具身智能发展的限制条件,后续的工作“会把大脑和小脑统一”,这就像人类的思维和动作本身是一体化的。陈建宇的做法是从最核心的小脑部分做scale up。先把物理层面的交互能力做得很强,随后逻辑思考等抽象能力也会逐步增强。这是陈建宇从day one就计划好的路径,也是与其他公司路线上最大的不同。
关于人形机器人的形态,行业内不同公司各有自己的坚持,有种声音是“没有腿的轮式机器人不能算人形机器人”,也有坚持轮式形态的公司认为“现阶段双腿不是最优解”。
在星动纪元的实验室里,虎嗅看到了陈建宇在这个问题上的解法——将人形机器人模块化,这样既可以接入双腿,也可以接入轮式。陈建宇将这些不同的模块形容为工具箱,“工具箱足够多的时候,可以快速拿出不同的工具,来匹配更多的商业场景”。
目前很多人形机器人公司都在寻找商业化场景,但陈建宇认为“不要没有找到PMF的时候,为了量产而量产。如果还没有找到用户,就先生产一堆机器人,可能生产出来又是一堆废铜烂铁。”
以下是虎嗅与陈建宇的对话,部分内容经过了优化和调整:
从象牙塔到商业世界
虎嗅:创办星动纪元之前你一直都在清华做学术研究。可能相对来说学校环境更像象牙塔,当时为什么要做这样的一个转变呢?
陈建宇:一开始确实是在实验室里以课题的形式做的。22年我在清华大学交叉信息研究院做人形机器人研究,但同时也在思考发挥机器人的更大价值——能生产产品的商业化价值。
不仅是在实验室做几个酷炫的demo,而是能做出强大影响力的产品,让很多人用起来,这个事情我会觉得非常激动。
另外,学校资源有限,特别是工程方面。做机器人硬件需要一个非常庞大的工程团队。综合考虑之下我决定开始做这个公司。
虎嗅:跟在学校的不同是什么?
陈建宇:某种程度上,学校更自由一些,只需要做一个新的东西,设计一个简化的实验,然后跑通了,就能发论文。
公司的限制会更多,需要真正创造社会价值。会有客户提出的客观指标,如果用发论文的方法来做产品的商业化,是不行的。
但在商业层面也会更丰富,因为能聚集更多资源更大团队去做,所以这个事情的scope(范围)可以更大一些。
虎嗅:这个过程中,遇到了哪些挑战?
陈建宇:挑战非常多,从融资、组建团队、管理到制定技术和商业化目标。还得想清楚未来这一行可能会怎么发展,行业里面哪些是朋友,哪些是竞对,怎么去处理。这些情况在学校是不会面临的。
虎嗅:目前为止做过的最大胆的决定是什么?
陈建宇:之前的都不算特别大胆,现阶段我们的研发资金投入不算太多,即使有些路线需要纠偏成本也不高。但在商业化之后会可能会面临生死决策时刻,可能有造一万台机器人的计划要拍板,算下来可能一下就要花几个亿。
所以我没有急于在这些方面没ready的情况下,就马上大力铺开,否则试错成本风险非常高。
虎嗅:现在存在一种刻板印象,好像草根出身的动手能力特别强,学霸类型的动手能力弱一点。你怎么看这个问题?
陈建宇:要看是什么动手问题,工程出身的去画机械结构肯定更熟练。如果是动手写AI代码,我在博士阶段发的十多篇论文,全程代码都是自己写的。
而且我认为到了这个层面,相对动手能力,能有vision带着下面的人把东西快速做出来更重要。
当我谈跑步时我谈些什么
虎嗅:现在星动STAR1的跑步速度达到什么水平了?
陈建宇:全球范围来看,这是跑得最快的机器人。STAR1实现了室外真实场景下能跑到3.6m/s,这相当于人类跑步配速438。
但这还没有完全发挥出硬件的极限, 为了保持稳定性我们的算法实现了60%的功力。理论最高能达到6米每秒,超过马拉松冠军。
虎嗅:为什么要做去提升机器人跑步的能力?
陈建宇:跑步是机器人核心的共性的能力,我们瞄向一个更大的目标是功能通用,我们希望它是一个通用人形机器人。未来在各种复杂环境下都能够去执行各种不同的任务。
虎嗅:但也有声音认为在工厂等平坦地形场景,轮式就可以满足要求。
陈建宇:所以我们做的是模块化,有一个机器人工具箱,这样机器人下肢既可以接入双腿,也可以接入轮式,工具箱足够多的时候,可以快速拿出不同的工具,来匹配更多的商业场景。
虎嗅:你们会重点关注腿部吗?
我们不会完全偏重腿部、灵巧手或者轮式的某一种,只是在具体产品上可能会有形态的不同,比如我们有的产品是双足,有的是轮式。
虎嗅:我发现跑步时STAR1双手也会微微摆动保持平衡。
陈建宇:这是机器人强化学习的结果,一方面会模仿人跑步的形态,另一方面机器人会根据自身的质量和风格自主学习出适合的幅度。人为给的东西比较少一点。
虎嗅:从day one你们用的就是AI的方法吗?
陈建宇:当然最开始第一步让他走起来,我们也有用模型控制的方法。但是其实从最初的时候,我就比较坚信一定是用AI把它走通。
虎嗅:你怎么看特斯拉的擎天柱在“We,Robot”发布会上展示的互动效果?
陈建宇:在操作层面还是比较领先。另外机器人能够在现场实时互动,基本没出差错,说明硬件的可靠性挺不错的。
但这是通过员工远程控制摇操作实现的。因为它的语言互动实时性,是连GPT-4o也达不到的程度,即使是特斯拉也做不出一个比GPT还强的大模型。
虎嗅:现在大语言模型Scaling曲线已经趋于平缓了,具身智能Scaling曲线目前处于哪个阶段?
陈建宇:非常初期,介于Transformer到GPT1.0之间。
虎嗅:在大语言模领域,国内公司的技术路线基本上都是摸着OpenAI过河,在具身智能领域也是这样模仿国外先进路线吗?
陈建宇:相对比较少。虽然Google在具身大脑领域比较领先,但他们也没探到GPT1.0那一步,所以缺乏可以直接复用的方法,还是需要从第一性原理去想该怎么做。
要有自己的想法和思路,如果直接抄,可能就抄错了。
虎嗅:国内外差距是怎么样的?
陈建宇:大家都还在探索,也许特斯拉在某方面会领先一些,但他们也还没有看到那个最终答案。
这个领域目前并没有如OpenAI般不可超越的存在。他们是可以超越的。
思而不学则殆
虎嗅:现在大模型在具身智能领域的应用,跟你最初去探索的时候相比有什么区别?
陈建宇:之前很多人想的是,把大模型接到机器人上,用大模型思考能力,它就变聪明了。但小脑(物理本体交互)依然还是不智能的,不能算整套数据驱动,没法通过scale变强。
虎嗅:所以你认为不智能的小脑是目前具身智能发展的限制条件?
陈建宇:对,从通用的这个角度来看,大脑(语言图像处理能力)更接近人的通用智能,但是小脑(物理交互)这部分还不够。
小脑也需要用类似大模型的方法,来增强通用性。小脑是跟本体物理交互的层面,所以说需要弥合这个gap。如果小脑能力不提升,始终还是停留在语言模型的范畴。
虎嗅:但现在研究小脑的公司团队不是很多。
陈建宇:原因可能是,第一,小脑研究还是需要比较高的学术能力。第二,有些纯AI出身的团队,可能更重视大脑的研究,而怎么跟物理交互,是做机器人团队在琢磨和研究的问题。
虎嗅:在小脑上的研究是我们跟其他公司路线上最大的不同吗?
陈建宇:对,我认为是最核心的地方。而且后面的话我们会把大脑和小脑要统一。就像人类的思维和动作也是天然统一的,逻辑思考和行为本身就是一体化的。
虎嗅:怎么去做大小脑统一的?
陈建宇:我们会一步一步做,因为直接把整个事情全做完,难度非常高。我们先从最核心的小脑部分做scale up。先把物理层面的交互能力做得很强,然后逻辑思考等抽象能力也会逐步增强。
就像一个机器人没法做动作,思考再多也只是一堆废铜烂铁。
虎嗅:从什么时候开始决定要走这条路线?
陈建宇:从本科的步态规划控制,到读博时研究无人驾驶的行为决策规划,其实我一直都在研究小脑及其到大脑的延伸。
虎嗅:还有哪些你现在比较看好的技术路线方向?
陈建宇:大的方面来说,要打通端到端。不能做个感知网络,再做个决策网络,再加上很多动作网络。这样相当于多的小模型堆在一块,不能像大模型那样scale。
虎嗅:现在大家都在做端到端?
陈建宇:其实能做端到端的不多,李飞飞做的很多工作都是直接调用GPT的。
具身之脑的觉醒
虎嗅:2023年的时候你做出了世界上第一篇大语言模型结合人形机器人的学术工作,为什么当时会想到用大模型去做这件事?
陈建宇:这可能跟我的经历有关。
目前具身智能玩家中主要有两个流派,一部分是计算机背景——大部分偏视觉。在机器人和AI开始交叉汇聚的时候,这部分人开始关注机器人的问题。但此前的的AI和机器人,是两个领域。
我是从正统机器人“坑”里出来的,我所在的学科领域是专门研究机器人的。在清华大学本科时,我就开始研究机器人的机械设计。在美国加州大学伯克利分校读博时,研究过机器人的底层控制。我的视角一直专注机器人问题,以及现有的各学科领域怎么跟它融合。
所以我会对这个更敏锐一些。在2022年的时候,ChatGPT还没发布,我就想做机器人的通用智能。
虎嗅:2022年时大模型还没有显现出价值,当时用的是什么方法?
陈建宇:对,当时没有大模型这样比较强大的工具,所以我当时用的是之前的强化学习方法。
Transformer它最大的意义是他能scale,达到通用。当时是有看到Transformer,但还没有scale只是小模型。在当时看起来没有任何improvement的效果。
虎嗅:为什么那时候开始提具身智能的概念?
陈建宇:之前也有一些词,我们一般叫Robert learning(机器人学习),但这个词我感觉不够酷。我还是想凸显智能,所以比较喜欢选用具身这个词。
虎嗅:当时就笃定大模型在具身智能上是能work的吗?
陈建宇:是的,当时看到它在语言这个领域已经证实了能work,至少目前来看它是唯一可能帮助我们达到通用的路径,而且是非常有希望的。
虎嗅:通过大模型来达到具身智能的通用,是业界的共识吗?
陈建宇:是这样的,没有其他任何方法达到了这样通用智能的水平。或者说我们也没有别的选择。
现在已经在语言领域证明了,近期也拓展到多模态领域。所以其实现在信心会增强。
机器人是更全的模态,不光有语言数据、行为动作,还有触感、声音、进入物理世界的交互。这是一个全新不同的方式。
虎嗅:具身智能最终形态是人形吗?
陈建宇:一定有人形,但是也会有别的形态,比如在某些场景一个机械臂就做完了。
人形做出来之后,它的技术可以向下兼容,去辐射到机械臂、灵巧手和假爪。相比通过假爪摇操作的采集数据方法,人形采集数据效率更高,网上人形操作的视频数据更多,这样我们能用的数据也更多。
虎嗅:你认为最终机器人是会做成通用还是不同领域的专用?
陈建宇:我们的技术始终是会做一个通用的机器人,但最终落地应用的时候它可能是一个专用的形态。就像大模型有通用的基座模型,也可以在某一个垂域里面再调优。
虎嗅:现在机器人有必要考虑量产的问题吗?
陈建宇:不要没有找到PMF的时候,为了量产而量产。如果还没有找到用户,就先生产一堆机器人,可能生产出来又是一堆废铜烂铁。但是咱们要做好量产的准备和试产工作。
虎嗅:但是有些公司声称,很早之前就有客户找他们生产。
陈建宇:我们也接到很多需求,很多他说想在这个工厂里增加一千个机器人。但需要做到机器人功能足够强大,且成本足够低,才能成立。不然工厂也不会买单的。
虎嗅:未来星动纪元想成为一家什么样的公司?
陈建宇:希望能成为像机器人界的苹果。
苹果做出了颠覆式的产品。其实机器人还没有出现真正广泛应用的产品,我认为机器人存在这样的机会,可能也会是颠覆式的创新。
虎嗅:成立星动纪元以来最大的感悟是什么?
陈建宇:找到了一种平衡。
既要保持开放的心态,不能说太自大,这样的话会可能会阻碍你成长。但另一方面你又需要坚定一些,特别是在正确的事情上。
虎嗅:星动纪元是清华大学交叉信息研究院孵化的,姚期智老师在其中提供了什么样的支持和帮助?
陈建宇:他提供了很多资源和指导。2022年我就一直跟他讨论,怎么去做人形机器人。
虎嗅:你们达成的共识是什么?
陈建宇:我们都相信,人形机器人终将改变世界。
(Tips:我是虎嗅科技医疗组的王欣,关注AI及创投领域,行业人士交流可加微信:13206438539,请注明身份。)