斯坦福、伯克利大神教授创业给机器人造大脑,OpenAI 红杉抢着投 5 亿
还记得曾火遍全网的 ALOHA 家务机器人吗?最近该项目导师,斯坦福计算机科学与电气工程系教授 Chelsea Finn 在 X 宣布,正式与其他几位伯克利大牛学者、谷歌 DeepMind 科学家共同 创业 ,全力为机器人打造智能大脑。
新公司的名字叫 Physical Intelligence,简称 Pi 或 π。 目标是开发一套 " 为各种机械设备添加高级智能的软件 ",最终构建可以控制任何机器人执行任何任务的通用 AI 模型。
Chelsea Finn 解释说,这其实极具挑战性,需要整合机器人跨平台策略、从视觉和语言模型中迁移学习、并通过模仿学习实现对灵活技能的掌握。
联合创始人兼 CEO Karol Hausman 也兴奋表示,项目将收集前所未见规模的机器人数据,进行算法改进和训练超大模型,并攻坚一切将 AI 引入物理世界所需的技术。为此他们组建了一支 " 世界级团队 ",迫不及待开始这趟新的冒险旅程。
根据公开消息,才创立不到一个月,Pi 已经被包括 OpenAI 和其早期 投资 者 Khosla Ventures、美国红杉资本、Lux Capital 在内的多家风投机构提前锁定,拿下 7000 万美元的高额融资。这不仅因为公司在机器人赛道中的技术前景被无比看好,更多是对创始团队实力的信心押注。
十人团队,人均大神,一位华人成员
Pi 的官网页面上是这样介绍自己的:
" Physical Intelligence 是一家将通用人工智能带入物理世界的新公司。
我们是一群工程师、科学家、机器人学家和公司创建者,正在开发驱动当今机器人和未来物理设备的基础模型及学习算法。现在还处于初期阶段,欢迎有兴趣的伙伴加入!"
列出的成员目前只有十人:
虽然展示方式 " 过于朴素 ",但团队阵容实际上相当豪华,几乎是人均大神。在加入 Pi 以前,他们各自都有不斐的研发成果,好几位都是业界响当当的名字。
首先必须介绍的是除 Chelsea Finn 和 Karol Hausman 的另一位联创 Sergey Levine 。
Sergey Levine 现任 UC Berkley 电气工程与计算机科学系助理教授,专注于研究让自主智能体通过学习获得复杂行为的通用算法,集中在机器学习决策和控制领域。并开发端到端深度神经网络训练策略,曾带领团队与谷歌联合开发 RT-X 机器人项目,被认为是强化学习领域的领军人物之一。
图源:MIT Technology Review
然而更令这个男人扬名立万的是他 " 学术狂魔 " 的名号。 Sergey Levine 谷歌学术上被引用量超过 13 万 ,同时在顶级国际会议和期刊上发表过大量研究论文,接收量长期位居前列,并且经常霸榜。
例如 NeurIPS 2019 和 2020 上他分别有 12 篇论文被接收,位列 NeurIPS 榜单第一。2019 年 ICML 论文接收量并列第二。2022 年更是向 ICML 投稿了 30 篇论文,并以 16 篇的接收量断崖式登顶作者 Top1 ——简直是令人闻之丧胆的 " 论文收割机 "!
此外 Sergey Levine 还是伯克利人气超高的 " 网红教授 ",教育成就十分突出。他开设的深度学习课程(Deep Reinforcement Learning,代号 CS285)在学生中反响极为热烈,很受欢迎。线上视频在油管和 B 站都可以观看,广为传播。
在这次对于新公司 Pi 的 " 创业声明 " 里他说,希望为机器人领域带来类似 " 大语言模型之于自然语言处理 " 那样的通用解决方案。
" 过去我们已经多次看到,机器学习在大规模数据集与小数据集中面临的问题有巨大不同。我们的研究很有实用性价值,相信也会为基础研究突破打开大门。"
开篇的提到的 Chelsea Finn 也是联合创始人之一。她从 MIT 大学毕业后在伯克利取得博士学位,其介绍元学习算法的毕业论文获得 2018 年 ACM 博士论文奖,当时的指导老师就有 Sergey Levine。
目前 Chelsea Finn 担任斯坦福大学计算机科学和电气工程的助理教授,重点研究通过学习和交互来发展机器人等智能体的广泛智能行为。例如端到端视觉感知和机器人操控,从收集的经验中自主学习通用技能,以及快速学习新概念和行为的元学习算法等。
Chelsea 的谷歌学术引用量虽没有 Sergey 多但也很突出,超过了 4.9 万次。她也曾在谷歌大脑担任过 5 年研究科学家,开发机器人深度预测模型。
Pi 的首席执行官 Karol Hausman 是谷歌大脑的高级研究科学家,同时也是斯坦福大学的兼职教授。他的研究兴趣集中在使机器人能够在真实世界中以最小的监督自主获得通用技能,并因 " 对可扩展的机器人学习算法做出重大贡献 " 而获得 2023 年 IEEE 机器人与自动化学会行业职业奖。
Hausman 在 X 的自我介绍十分有趣:" 喜欢机器人、AI、NBA、哲学、足球和杏仁可颂。"
除了这三位,团队还聚集了擅长机器人运动规划和基础模型的前谷歌研究科学家 Brian Ichter;巴基斯坦裔杰出工程师、前特斯拉自动驾驶和硬件专家(设计了 Model X 独特的上翘式猎鹰门)、现 Anduril Industries 高级副总裁兼电气工程负责人 Anduril Industries;Chelsea 得意门生、丰田研究所机器学习、机器人学和计算机视觉研究科学家 Suraj Nair;以及支付公司 Stripe 前高管、著名 科技 投资人 Lachy Groom 等业界大牛。
另外吸引我们注意的是,这份名单列表里还有一位华人成员 Lucy Shi 。这位来自人大附中的姑娘在 USC 获得计算机科学学士学位,现在是一名斯坦福的学生研究员,由 Chelsea Finn 教授指导。曾与 NVIDIA 高级研究科学家兼通用具身智能团队负责人 Yoke Zhu 和高级研发经理 Jim Fan 合作过。
最近她刚在 X 公布了斯坦福与伯克利合作的 Yell At Your Robot ( YAY Robot ) 项目,展示机器人从语音纠正中实时改进,根据人类口语反馈来学习和不断提升,执行灵巧操作任务的研究成果。
Lucy Shi 在个人页面开心地分享了自己以 " 第一位实习生 " 身份加入 Physical Intelligence 的消息。
自我介绍中她写道," 我对机器人学习有着广泛兴趣。研究目标是创造出通用型机器人,在我们日常生活中无缝执行复杂、长期的任务… . 我深信人类的创造力和人工智能的潜力。未来 20 年,我希望成为一名大学教授,建立起新一代的贝尔实验室 ——这个改变世界的创新思想工厂。" 也让我们欣喜地看到又一位智慧与理想兼具、前途无量的年轻学者。
迎难而上的智能机器人大脑缔造者
在历久以来的科幻小说和电影里,人们总梦想有一个真正听懂自己需求的机器人。它会思考、有情绪,能跟在身边陪伴我们,帮助解决生活中的种种难题,像人类朋友一样全能。然而现实中的机器人虽说可以在工厂搬运重物、给家里打扫卫生,但与日益通用化的聊天机器人相比,能够执行的任务范围相对要局限很多。
Chatbot 和 LLM 的崛起得益于 互联网 语料中的海量数据。OpenAI 和 Google 可以通过向大语言模型输入数十亿个人类语言样本来训练它们。然而从真实世界收集类似规模的数据是极其困难的,这也限制了近几年人工智能在物理机器人领域的进步。
Physical Intelligence 认为,现在正是采用新方法推进通用型机器人的好时机。
Figure 01 通过接入 ChatGPT 实现了人形机器人智能化的 " 看听说 " 交互,让人们看到大模型与机器人结合的巨大潜力。 Pi 也希望将构建语言模型的先进技术与自己的机器控制和指令技术相结合,创建一种任何硬件、任何平台都可用的,具备广泛任务执行能力的通用人工智能系统。
团队表示,Pi 并不专注于特定类型的机械臂或工业机器人,而是计划开发可以应用于多种类型机器人的软件。他们也不会制造自己的硬件, 创业后第一步是解决工程问题、搭建模型,以及购买各种不同的机器人并在上面开展训练,目的就是积累迄今为止最大规模的机器人数据。
Karol Hausman 在接受公开采访时强调,团队要开发一个通用模型,将人工智能从计算机里带到物理世界," 它能为任何硬件设备提供动力,用于任何应用。"
而这显然不仅仅是 Pi 的愿景。除了面临来自 Figure AI 和特斯拉等制造人形机器人公司的竞争,几十年来,人们也一直在努力改进驱动机器人的软件。
就在 Pi 宣布成立的同一周,有着 7 年历史、由知名 AI 科学家 Pieter Abbeel 和他三位华人博士生创立的 Covariant 公司就推出了基础模型 RFM-1,为机器人提供类似 ChatGPT 的语言理解和生成能力。经过一般互联网数据和丰富现实世界交互数据的联合训练,RFM-1 可以让机器人理解自然语言指令并生成相应的动作,并能处理一些突发状况,收获大量好评。
如今强强联合,正式加入战场的 Pi,到了将团队多年潜心累积的卓越成果集大成的时候了。再加上 OpenAI 的背后支持,能不能凑齐龙珠召唤神龙,推动通用机器人领域的新纪元?
" 我们的目标是为机器带来人类那样的基本能力。" Lachy Groom 说," 我认为构建人形机器人是非常酷的事情。 但从根本上让人类变得有趣的是大脑,而不是什么硬件——我们才是终极的通才。 "
来源:硅星人