苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

雷锋网 • 2年前扫码分享

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

作者 | 李梅

编辑 | 陈彩娴

如今，每隔一段时间就有新的文本生成图像模型释出，个个效果都很强大，每每惊艳众人，这个领域已经是卷上天了。

不过，像 OpenAI 的 DALL-E 2 或谷歌的 Imagen 等 AI 系统，都只能生成二维图像，如果文字也能变成三维场景，那带来视觉体验势必加倍提升。

现在，来自苹果的 AI 团队推出了 3D 场景生成的最新神经架构—— GAUDI 。

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

它可以捕捉复杂和逼真的 3D 场景分布，从移动摄像机中进行沉浸式渲染，还能根据文本提示来创建 3D 场景！该模型以 Antoni Gaudi 命名，他是西班牙著名的建筑大师。

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

论文地址：https://arxiv.org/pdf/2207.13751.pdf

1

基于 NeRFs 的 3D 渲染

神经渲染（nerual rendering）将计算机图形学与人工智能结合起来，已经产生了很多从 2D 图像生成 3D 模型的系统。比如最近 Nvidia 开发的 3D MoMa 可以在一个小时内从不到 100 张的照片中创建出 3D 模型。谷歌也依靠神经辐射场（NeRFs ）在谷歌地图中将 2D 卫星和街景图像组合成 3D 场景，实现了沉浸式视图。谷歌的 HumanNeRF 还可以从视频中渲染出 3D 人体。

目前，NeRFs 主要还是用作 3D 模型和 3D 场景的一种神经存储介质，可以从不同的相机视角进行渲染。NeRFs 也已经开始被用于虚拟现实体验。

那么，NeRFs 这种从不同摄像机角度逼真地渲染图像的强大能力，能不能用于生成式 AI 呢？当然可以，已经有研究团队尝试了 3D 场景的生成，如谷歌在去年首次推出了 AI 系统 Dream Fields，它将 NeRF 生成 3D 视图的能力与 OpenAI 的 CLIP 评估图像内容的能力相结合，最终实现了能够生成匹配文本描述的 NeRF。

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

图注：谷歌 Dream Fields

但是，谷歌的 Dream Fields 只能生成针对单个对象的 3D 视图，要将它扩展到完全不受约束的 3D 场景还存在很多困难。最大的难点就在于摄像机的位置有很大的限制，对于单个对象，每个可能的、合理的摄像机位置都可以映射到一个圆顶，但在 3D 场景中，摄像机的位置会受到对象和墙壁等障碍物的限制。如果在场景生成时不考虑这些因素，那就很难生成 3D 场景。

2

3D 渲染专家 GAUDI

对于上述摄像机位置受限的问题，苹果的 GAUDI 模型拿出了三个专门的网络来轻松搞定：

GAUDI 有一个相机姿态解码器，它将摄像机姿态与场景的 3D 几何和外观分离开来，可以预测摄像机的可能位置，并确保输出是 3D 场景架构的有效位置。

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

图注：解码器模型架构

针对场景的场景解码器则可以预测三维平面的表示，这种表示是一种 3D 画布。

然后，辐射场解码器会在这块画布上使用体积渲染方程来绘制后续的图像。

GAUDI 的 3D 生成包含两个阶段：

一是潜在和网络参数的优化：学习对数千条轨迹的 3D 辐射场和相应相机姿态进行编码的潜在表示。与针对单个对象不同，有效相机姿态随着场景的变化而不同，所以需要对每个场景有效的相机姿态进行编码。

二是使用扩散模型在潜在表示上学习生成模型，从而能够在有条件和无条件的推理任务中都能很好地建模。前者是根据文本或图像提示来生成 3D 场景，后者则是根据摄像机轨迹来生成 3D场景。

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

通过 3D 室内场景，GAUDI 可以生成新的摄像机运动。如在下面一些示例中，文本描述包含有关场景和导航路径的信息。这里研究团队采用了预先训练的基于 RoBERTa 的文本编码器，并使用其中间表示来调节扩散模型，生成效果如下：

文本提示：走进厨房

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

文本提示：上楼

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

文本提示：穿过走廊

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

另外，使用预训练的ResNet-18 作为图像编码器，GAUDI 能够对从随机视点观察给定图像的辐射场进行采样，从而从图像提示中创建 3D 场景。

图像提示：

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

生成 3D 场景：

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

图像提示：

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

生成 3D 场景：

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

研究人员在四个不同的数据集（包括室内扫描数据集 ARKitScences）上进行了实验，结果表明， GAUDI 可以重建学习视图，而且可以与现有方法的质量相匹配。即使是在为数千个室内场景制作具有数十万张图像的 3D 场景的庞大任务中，GAUDI 也不会出现模式崩溃或方向问题。

GAUDI 的出现不仅会对许多计算机视觉任务上产生影响，而且其 3D 场景的生成能力也将有利于基于模型的强化学习和规划、SLAM 以及 3D 内容的制作等研究领域。

就目前来看，GAUDI 生成的视频质量还不算高，可以看出有很多伪影。不过，这个系统或许可以为苹果正在进行的渲染 3D 对象和场景的 AI 系统，这是一个好的开始和基础，据说 GAUDI 还将被应用到苹果的 XR 耳机中，用于生成数字化位置。可以期待一下~

参考链接：

https://medium.com/mlearning-ai/how-to-generate-3d-scenes-from-text-descriptions-2345bfb321

https://mixed-news.com/en/apples-new-gaudi-ai-turns-text-prompts-into-3d-scenes/

更多内容，点击下方关注：

扫码添加 AI 科技评论微信号，投稿&进群：

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

雷峰网 (公众号：雷峰网) 苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

雷峰网版权文章，未经授权禁止转载。详情见。

随意打赏

库克宣布苹果全球运营碳排放已减少超60%

i黑马 • 1分钟前

4月17日，苹果CEO库克在微博发文称，苹果在全球的运营碳排放已减少超60%，库克称，“我们使用的再生材料和可再生能源也达到了历史新高。”文章评价匿名用户发布发布
苹果Vision Air头显曝光：采用钛金属、深蓝配色抢眼，轻量化再升级

砍柴网 • 1天前

4 月 17 日消息，热衷收集各种苹果原型机的收藏家兼曝料者 Kosutami 透露，苹果公司正在研发一款全新的“Vision Air”头显设备，采用更薄、更轻的设计，并将推出“Midnight”蓝色外观。消息称 Vision Air 头显电池外壳及部分内部结构替换为钛金属，以实现
苹果上演“关税大逃杀”

虎嗅网 • 1天前

本文来自微信公众号：财联社（ID：cailianpress），作者：卞纯，题图来自：AI生成据媒体查阅的可公开获取的海关数据，苹果在印度的最大供应商富士康3月份向美国出口了价值13.1亿美元的智能手机，创下单月最高纪录，相当于1月和2月出口额的总和。这些智能手机包括iPhone 13、i
苹果联合研究照亮多模态AI未来方向：早期融合+稀疏架构

砍柴网 • 1天前

4 月 16 日消息，科技媒体 marktechpost 昨日（4 月 15 日）发布博文，报道称苹果工程师联合法国索邦大学，通过对比早期融合和后期融合模型，发现从头训练的早期融合模型在计算效率和扩展性上更具优势。多模态 AI 现状与面临的挑战IT之家援
苹果，新贸易秩序的受害者，还是塑造者

虎嗅网 • 1天前

中美博弈新贸易秩序，其中的一个焦点，是如何安放苹果——它的全球产能布局、链内链外的产品和技术流向，是这个世界贸易秩序的一个缩影。首先是特朗普不会放过苹果。美国商务部已就包括智能手机在内的“半导体与下游电子产品”发起关税调查，日程排得非常紧张，公开征求意见只持续21天，呼应商务部长卢特尼克（Howar
Meta自辩非垄断：苹果iMessage使用率高达88.39%

砍柴网 • 2天前

4 月 16 日消息，科技媒体 The Verge 昨日（4 月 15 日）发布博文，报道称在反垄断诉讼中，Meta 公司并非垄断者，理由是在 iOS 系统上，苹果的 iMessage 的表现远超 Facebook Messenger。 IT之家昨日报道，
苹果重组销售部门 27年老将离职

砍柴网 • 2天前

苹果公司北京时间4月16日，据彭博社报道，苹果公司负责全球企业销售和西欧市场的副总裁马克·罗杰斯(Mark Rogers)计划在今年晚些时候离职，成为最新一位离职的资深高管。知情人士称，罗杰斯已告知同事，他将在今年秋季离职。罗杰斯已在苹果工作了27年，自2013年起担任副总裁。在目前的职位上，罗杰斯负
消息称苹果watchOS 12将引入Apple Intelligence功能，依赖iPhone运行模型

砍柴网 • 2天前

据彭博社消息，watchOS 12将引入Apple Intelligence功能，但AI模型仍需依赖iPhone运行。这一设计延续了Apple Watch对iPhone的依赖性，同时带来更智能的体验。实际上，watchOS 12 的这一更新策略并不令人意外。自 Apple Watch 首次发布以来，其在功能上一直高度依
被OpenAI甩开两年，谁该为苹果的AI掉队买单？

虎嗅网 • 2天前

重大决策上的犹豫不决，是导致苹果上个月宣布将 Siri 新功能发布时间推迟到 2026 年的因素之一。据四位知情人士透露，苹果内部告诉员工，他们将解除 AI主管约翰·詹南德雷亚（John Giannandrea）及其副手罗比·沃克（Robby Walker）
「豁免」无效，关税「横跳」，苹果和英伟达悬着的心，怎么落下来？

极客公园 • 3天前

上周五，美国海关发布了更新税则，豁免了包括电脑、智能手机、半导体等部分产品的「对等关税」。一大批消费电子、芯片公司顿时松了口气，尤其是苹果、戴尔、惠普、三星、联想、AMD、英伟达等厂商，以及相关供应链企业，似乎一夜之间「脱险」了。然而，美国总统特朗普周末在社交媒体发文称，豁免的电子产品只是被「挪到

评论