苏州创企,想要掀起一场三维重建的AI革命
三年前,元宇宙大热,但很快便偃旗息鼓,留下了一个「概念大于落地」的幻影。
然而随着 Vision Pro 面世,其令人震撼的虚拟现实体验,让国外 投资 人评价道,Vision Pro 或将使元宇宙「再次伟大」。
如果说 Vision Pro 等 XR 交互设备的核心理念是将数字内容无缝融入真实世界,让用户处在当下并与他人保持连接,那在这个美好愿景之上,仍难逃一个核心命题: 3D 内容稀缺。
当前,三维重建领域普遍采用的是 Mesh 技术,一些企业虽短暂青睐过谷歌在 2020 年提出的 NeRF(神经辐射场)技术(因其展示了人工智能在三维重建领域的曙光),但因没有解决 3D 内容不够真实、高生产门槛、高生产成本等问题,更为广泛的 XR 体验始终没有走入寻常百姓家。
大规模便宜且逼真的三维镜像,或许正是 AI 和 XR 结合时的 missing link(缺环)。
一家坐落在苏州工业园区的 AI 创企——知天下(苏州)人工智能 科技 有限公司(以下简称知天下),想要试着补齐这一环。
知天下走的技术路线,正是近期在计算机视觉领域大火的 3D Gaussian Splatting(3D 高斯溅射)技术。
去年 7 月份,法国科研机构 Inria 和德国马普所联合发表了一篇论文,详细介绍 3D 高斯溅射技术,这项技术使得大规模生成精细化 3D 模型成为可能。论文一经发出,便在计算机视觉领域引起极高关注。
「这项技术具有划时代意义」, 知天下创始人兼 CEO 宋宽博士激动地说, 「高斯溅射将使三维点云算法从『小众』变成『大杀器』」。
除了由衷的开心之余,几乎没有任何犹豫,宋宽当即做了一个决定:集结全公司的研发力量,All in 高斯溅射。
「点云」算法是高斯溅射的核心技术之一。巧合的是,在过去的四年时间里,知天下团队一直在和「点云」算法打交道。
从 2021 年起,知天下团队在首席科学家魏泽强博士带领下,连续三年揽下国际人工智能顶会(ICCV、ECCV、CVPR)在大规模点云和光场算法方向的大赛冠军。
在那篇重磅论文面世的九个月后,知天下推出了一款基于高斯溅射的三维重建小程序,于上周五正式对外公测。
这是国内市场上第一个基于高斯溅射技术、公开可用的 AI 三维重建工具。 在这个工具中,每个人都可以用 手机 或者无人机拍摄的二维照片,自动重建高保真的三维场景。
宋宽认为,高斯溅射这门新兴技术,将催生出下一个平台级机会。
但当前,他很清醒的认识到,提升人工智能算法能力,完成一个又一个美轮美奂的实物 3D 模型,把三维重建的数据模型做起来才是前提。
「为了不浪费这个机遇,我们平台产出的三维模型要尽可能做到业界最惊艳」。
1. 补上一个 missing link
去年夏秋之交,一枚「重磅炸弹」投向计算机视觉行业。
法国科研机构 Inria 和德国马普所发布了一篇名为「3D Gaussian Splatting for Real-Time Radiance Field Rendering」的论文,谈论的正是 3D 高斯溅射技术。
在介绍 3D 高斯溅射技术特点时,我们不妨先来做个设想:
将自己视为一名艺术家。你不是在普通画布上绘画,而是在三维的空间中进行创作。你为场景中的每个对象绘制彩色的泡泡,生成一堆泡沫。这堆泡沫被称之为高斯溅射的「点云」。
再进一步,你不只是使用点,也在画布上混合颜色,让画面更平滑、更真实。这就是「泼溅」。
这就是 3D 高斯泼溅背后的想法:它不只使用点,而是使用柔和地混合在一起的「泼溅」。每个 splat 就像一个温柔的泡泡,有自己的颜色并且可以是透明的。
不同于传统的点云可视化方法,高斯分布使得空间中的「连续可视化」成为可能,并赋予其深度和自然的外观,使场景看起来更加真实,而不是看起来离散和像素化。
如果对其技术特点进行概括,可总结为:高品质(超越 NeRF 和传统 Mesh);实时渲染(超过 100fps); 训练时间短(比 NeRF 和 Mesh 降低一个数量级)。
这也就意味着大规模生成精细化的 3D 模型成为可能。
一时间,高斯溅射技术在业内引起广泛关注,并被不少业内人士称之为是 三维重建领域的颠覆式生产力。
在此背景下,即便是此前以 NeRF 为主要技术路线的厂商 Luma AI,也随即发布新一代基于高斯溅射构建的可交互场景和 API,开始「NeRF+高斯溅射」并行,两条腿走路。
那时,距离知天下落户苏州正好半年。
当回忆起看到这篇论文时的第一反应时,宋宽说,除了迅速转发到团队群之外,我还发了一句话:我们之前一直在寻找 AI 和 XR 结合时缺失的那一环,终于出现了。
一直以来,XR 领域被认为缺乏大规模、高质量的 3D 内容,无法喂饱用户;人工智能领域则一直在寻找可以实现规模效益和网络效应的直观应用场景。
高斯溅射的出现,正好弥合两者的缺漏。
知天下创始人兼 CEO 宋宽,图片来源:受访人提供
简单来说,三维重建任务就是给定一个场景的多个视角的图像,重建出这个场景的三维模型。
三维重建最早出现于上世纪中叶测绘学的一个子领域:摄影测量。随后在上世纪八九十年代,计算机科学领域重新发现了这项工作的价值,将其快速推进、迭代。
目前,在大多数的 3D 建模领域中,Mesh 网格表达已经成为行业主流。近二十年来,GPU 的快速迭代,更是大大提高了 Mesh 模型的渲染速度。
当然弊端也很明显。Mesh 模型只能重建出物体的一层表面「薄壳」,对于表面不平滑的物体的建模效果就会很差、很假,需要追加大量人工,加以修订。
尤其是面对植物、毛发、水面倒影、建筑纹理等建模细节,即便经过人工修订,仍然无法达到真实世界的视觉效果。
时间来到 2020 年,由谷歌提出的 NeRF(神经辐射场 Neural Radiance Fields) 技术,为三维重建带来了新思路。
研究 NeRF 的目的在于合成同一场景不同视角下的图像。其路径大致可以概括如下:根据给定场景的若干张图片,重构出这个场景的 3D 表示,然后推理的时候输入不同视角就可以合成(渲染)这个视角下的图像了。
这一技术的核心思想是将每一个三维场景的底层数据结构从 Mesh 网格转为更微小的层级: 沿着光传导路线的体渲染。
学者们假设,相机从各个角度去给这个三维场景拍照的时候,相当于从相机角度的光路做了一次该方向的色彩和体素密度的积分,这被称为 体渲染 。而深度学习网络所做的就是对每个相机角度拍到照片,和体渲染计算之间的误差最小化。
NeRF 提出三年多来,最可贵的思想是光栅化(rasterization)渲染,这是可以使用深度学习的部分。
但是在后来的实践中,从业者们渐渐发现 NeRF 的渲染效果其实有限,而且体渲染的深度学习训练效率并不高。
从某种程度上来说,高斯溅射的出现,对于急于补上 AI 与 XR 之间 missing link 的宋宽来说,无疑是「久旱逢甘霖」。
「人工智能一定是生产 3D 内容的必经之路。 VR 这一块如果用人工手绘或者 Mesh 建模来做的话,效率极其低下,必定会陷入内容匮乏、成本高昂的境地。可是直到高斯溅射出来之后,我才有了技术抓手。」他说道。
2. 一段厚积薄发的技术源渊
说到宋宽和高斯溅射这门技术的渊源,或许可以追溯到更远。
早在 2023 年秋季这个时间点之前,宋宽和团队就开始专注于研究「点云」技术。其首席科学家魏泽强博士,更是带领团队接连拿下 2021-2023 年国际 AI 顶会(ICCV、ECCV、CVPR)三项深度学习算法冠军。
「当时国内很少有人研究这个方向,我们也不知道是抽了哪根筋,一门心思的铺在点云深度学习这门技术上。」他说。
此外,发源于摄影测量领域的立体视觉定位,也是高斯溅射技术的重要步骤之一。而在先前研究 AI 遥感技术的岁月里,宋宽团队在这一块也积累了不少经验。
图注:苏州金鸡湖畔摩天轮工地,经由知天下「点云」算法渲染前后对比图
如今,高斯溅射横空出世后,知天下团队凭借在点云深度学习算法和摄影测量算法上的积累,成功将其融合,探索出下一代超大规模的三维重建算法,并打造了一套三维重建自动化生产线。
这或许正应了那句话: 创业 并非一蹴而就,也需要一些歪打正着的「运气」。
但究其根本,「运气」背后又何尝不是厚积薄发的「底气」。
知天下成立之初,宋宽本来是想以 AI 遥感为技术底座,寻求 商业 化落地机会。
AI 遥感技术是指通过对遥感卫星和无人机影像数据的深度分析和学习,实现自动化识别分类地表特征,提高数据处理的效率和解译的准确性。
从某种程度上来说,AI 遥感是计算机视觉和数据挖掘行业的结合点。而在这一结合点上,宋宽已经拥有十余年的产学研经验。
2002 年,人工智能的浪潮并未掀起,火热的正是计算机视觉和数据挖掘两大方向。
看中这两大「热门方向」于交汇处的潜力,宋宽选择在全世界最著名的卫星遥感研究中心——马里兰大学攻读博士。毕业归国后,他曾任阿里云数据挖掘专家、佳格天地首席科学家。直到 2022 年底,方踏上创业之路。
创业之初,他本摩拳擦掌,想大干一场,却受到不少意向投资者的质疑:AI 遥感技术的应用落地会不会太过于小众?
面对质疑,宋宽开始重新审视 AI 遥感技术在商业化落地时面临的若干堵点:
一. 在使用场景和需求上的特殊性。
他发现,在战争和灾难的场景下,国家会对 AI 遥感技术有一个井喷式的增长需求。
例如在地震和洪水之后,可紧急调配卫星和飞机拍摄发生地震时的场景;深度学习受灾前后照片,就可以评估受灾程度和范围。再比如在欧亚大陆衔接的边缘,战争正在肆虐。深度学习甚至可以对比每天的照片,找到各种隐藏线索。
而在其他场景中,需求天花板有限。
二. 遥感数据源存在由遥感卫星逐渐向无人机迁移的趋势。
无人机航拍和固定翼无人机制造,是宋宽自 2016 年起,闲暇之余消遣时间的爱好。
最开始他只是单纯觉得酷炫,可在成为一位创业者后,面对行业趋势转移,一个念头闪过: 能否以无人机作为数据采集源,来打造属于知天下的「空中数据库」。
那时,他判断,未来以无人机为数据源或许将在中国广阔大地上应用空间更为广泛,而没有民航机场的 经济 发达城市会在无人机数据的 AI 应用上具备战略优势。
就这样,没有机场的苏州,成为宋宽团队的落脚地。
2022 年,宋宽团队从北京整体迁移到苏州工业园区,并接连拿下两个领军人才资助项目。
面对这场双向奔赴,知天下自是不敢辜负这份信任。
去年 9 月,知天下团队历时半年精心打磨的同名软件「知天下」登陆国内最大的元宇宙商店 PICO,当月冲上免费榜排名第一名。迄今为止,有十分之一的 Pico 用户已经用过这款 App。
这是一个世界旅行应用,用户可以通过该应用游览全球各地的风景名胜。它提供了近百万个地点的无人机全景照片和上百个旅行路线,涵盖了从亚洲到美洲,从太平洋到大西洋,从南极到北极等各个地区,并用大语言模型将全世界的文化历史地理和照片关联到一起。
高斯溅射技术爆火后,在这一技术的加持下,通过无人机拍摄的大规模建筑的二维画面,可以在数小时内转化为栩栩如生的三维模型。
嗅觉灵敏的公司早已付诸行动。这一点,我们能从美国创业公司 Luma AI 的官网上窥见一斑,其网站上呈现出的大量三维模型,数量最多的就是由无人机照片建模的室外场景。
而在中国,在知天下的网站上,以无人机为数据源进行三维重建的室外场景,数量也在稳步攀升中。
近期,知天下的三维重建小程序上线,宋宽一连在朋友圈发布多个 demo,陆续吸引到一批客户,其中主要是在工程建筑和文旅行业的从业者。比如当前,某省级博物馆相关负责人正在与他们洽谈合作,希望能对现有的文博数字展览系统进行替换。
3. 抓住一个平台级机会
当步入知天下的办公室,「简单」二字扑面而来,映入眼帘的是一个非常典型的理工男创业场景:
左侧是简单装修的办公区,右侧是一个简单搭建的照相区——用来进行各种物件的三维测试,台面上摆放着八卦阵——用来进行方位标识,周边则是五架奇形怪状的无人机——用来拍摄素材。
在这一方小天地里,上周一款基于高斯溅射的三维重建小程序「知天下三维」面世,这使得大批量生成实景 3D 模型成为可能。
用户只需要从上、中、下三个空间层,八个方位拍摄,上传 24 张图片,便可获得一张实物的三维重建图:从毛茸茸的童鞋到苏州园林,包罗万象,20 分钟便能产出栩栩如生的三维画面。
能做到这样精细的三维重建画面,自是离不开技术上的迭代和创新。
知天下团队成员合照,图片来源:受访者提供
此前,法国科研机构 Inria 在公布论文时,同步也对高斯溅射的基础代码进行开源。这对众多想「尝鲜」的行业从业者来说,无疑是一大利好。
知天下团队在欣喜之余,变得谨慎起来。「copycat 并不会产生任何技术护城河,我们并不想当一位心安理得的『拿来主义者』」。
因此,在消化吸收开源的基础上,知天下团队对原有代码进行了 60% 的自研替换,和法国 Inria 团队的成果相比,在精细度上有了大幅提高。
问题来了,当有了足够多的三维重建数据,又将如何实现商业化落地呢?
其中,电商的交互式三维广告,被宋宽认为是直播电商之后的千亿市场,但是碍于当前电商平台限制第三方链接嵌入,这一市场在短时间内很难切入,需要「等风来」。
眼下,文旅和建筑工程行业将是知天下的两大主要落地方向。
一直以来,工程领域的三维重建,「代价」很高,平均每平方公里能达到一万元。而利用 3D 高斯溅射技术,宋宽说能把这个成本压降到每平方公里千元,甚至更低。
但是二者出来的效果却有着云泥之别。利用 3D 高斯溅射技术生成的大型商场 demo,玻璃透光和建筑的纹理都清晰可见,远超过往的三维展示效果;而且在时间成本上,原本需要数日的集群计算,被压缩至个把小时。
然而,令人稍显挫败的是,公司商务团队在对外沟通时,别人一听「三维」,第一反应是「我们已经有了」。
「大家对于三维这个概念的定义和理解不一样,不少人还停留在 Mesh 阶段。但在我们看来,这会是一个平台级的机会。从某种程度上来说,我们现在在做市场教育工作。」宋宽说。
瞄准这一平台级机会的,不乏国外入局者。尤其是看到不少有中国元素的三维重建场景图(其素材源自中国用户提交的无人机航拍照片),出现在美国 Luma AI 的公司主页上时,宋宽的紧迫感更强了。
他说,在当前的国际地缘政治形势下, 真实世界精细的三维重建,蕴含极大的价值,我们要尽可能让中国的三维数据留在中国的服务器上。
创业至今,宋宽从一开始碰到压力晚上睡不着,到现在习惯了压力,泰然接受来自管理、经营、研发带来的全方面考验。他说自己逐渐有了一颗强心脏,也对未来三维重建的世界有了更多的想象:
未来的大模型不只是用文字交互,而是以真实三维环境与用户交互;
未来的电商不再是摆拍照片和视频的卖家秀,而是所见即所得、买家可以翻来覆去探查的高保真三维镜像;
未来 XR 的 3D 内容不再是由三维设计师爆肝画出来的,而是在海量真实三维镜像基础上快速编辑、融合、生成的。
这一未来画面的出现,需要三维领域在基本的数据结构层面上,逐渐从 Mesh 网格结构向高斯溅射技术兼容。
「以真实世界里海量且高质量的数据作为土壤,是这一轮人工智能技术革命的核心。高斯溅射即将为三维重建带来一场颠覆性的革命。谁能掌握最出色的高斯溅射三维算法和数据,谁将有希望训练出最出色的三维生成式 AI。」宋宽表示。
他补充道,当一门颠覆性技术出来,希望能看见中国团队带来的中国产品。即便我们不是最先提出来的,但是希望不要被甩开几个身位。
当跳过单一的三维重建世界,把视线拉的再远一些,三维高斯溅射与多模态 AI、生成式 AI 在未来世界里,又将碰撞出何种火花?
这时,一贯以逻辑严密、理性冷静著称的理工男,竟打了个浪漫的比喻:这三种技术在未来将会像格林童话中杰克种下的三颗魔豆一样,互相缠绕支撑,通向天空之城。(稿件来源:甲子苏州 作者:七月)