用AI创造元宇宙, Meta发布最强3D素材生成模型, 一分钟创造一个世界

36氪2024-07-03 23:10:42 123

文｜王沁王奕昕

编辑｜李然

因为有了AI，Meta的元宇宙梦不死！

Meta 3D Gen

Meta推出了一种名为Meta 3D Gen的端到端3D素材生成模型，可以在不到一分钟的时间内根据文本描述创建高质量的3D素材。

图源:X(@AIatMeta)

Meta 3D Gen结合了Meta的两个现有模型：用于生成 3D 网格素材的AssetGen和用于精细纹理化的 TextureGen。 Meta 表示，这种集成可以为沉浸式内容带来更高质量的3D生成。

Meta 3D Gen

据Meta称，3D Gen在速度和质量方面都超过了领先的行业解决方案。技术报告中称，专业3D艺术家在大多数类别中对该工具的评分都好于竞争对手，特别是对于复杂的请求。Meta表示，**它的速度是同类系统的3到60倍。**

Meta 3D Gen

VR行业发展速度不及预期，其中一个最重要的原因就是创建内容的成本过高，很难吸引内容创作者为元宇宙创建素材。而且人工创建的VR 3D素材质量因为硬件性能等各种因素的限制，相比平面素材过于“简陋”，使得用户的沉浸感不足。

和现有的业界产品（Meshy、Tripo等）相比，Meta的Gen 3D生成的效果确实要好上不少，而且用时还是最少的。图源：Meta论文

而如果用户能够非常方便且高效地创造3D素材，至少将能大大改善VR内容缺乏的问题。如果素材的质量再能得到进一步的提高，生成的虚拟现实世界真的能够达到以假乱真的地步。在Gen AI的加持之下，也许VR中的虚拟世界未来要成为第一个AI生成比例大于人工生成的领域。

Meta 3D Gen

也许小扎的VR梦，在AI的加持下，就真的要成了。

图源:X(@KaladinFree)

网友惊呼：这个技术对于VR以及Meta自身的发展策略来说太重要了。Meta可能是除了英伟达以外AI发展最大的赢家！

图源:X(@sonieashan)

从文本到3D，是怎样炼成的？

从文本提示词生成3D素材的模型，在 3D 图形、动画、游戏和 AR/VR 等领域都具有巨大的发挥潜力。

虽然在文生图和文生视频模型领域，已经取得了世界瞩目的进展（例如MidJourney、Sora、Runway等等），但在3D 生成模型领域，以往的模型质量仍然不足以用于专业用途。

**以往3D生成模型有很多缺陷，比如生成速度慢，生成的3D网格和纹理中存在伪影。此外，以往的很多模型仍然将物体外观渲染为固有的颜色，忽略了 3D 物体的颜色应该随着环境光的变化而变化**。特别是对于反光材料，当把它们放置在新环境中时，它们会显得格格不入。

而Meta的3D Gen 能在不到 30 秒内生成3D素材，相比于以往具有同等速度的模型，在保真度、生成的 3D 网格质量、特别是材料的质量和控制等方面，表现更好。

Meta 3D Gen

3D Gen是如何做到如此栩栩如生的3D素材生成的呢？

3D Gen 采用了两阶段的方法，结合了两个组件，第一阶段使用AssetGen组件，第二阶段使用TextureGen组件。

第一阶段：从文本到图像

这一阶段的目标是，从文本生成有着色和阴影的图像，从四个标准视角，生成这些角度的4张视图。为此，Meta团队使用了一个经过预训练的文生图的扩散模型，该模型在数十亿张带标签的图像上进行训练。

第一阶段的推理时间约为 30 秒。

左为其他模型效果，右为3D Gen模型效果。图源：Meta论文

和其他3D素材生成模型相比，Meta的AssetGen的细节，光照的效果都明显要丰富和真实得多。

左为其他模型效果，右为3D Gen模型效果。图源：Meta论文

值得一提的是，Meta团队使用的这个文生图模型，其架构与国内智源研究院的「悟道3.0」Emu开源多模态模型类似。

第二阶段：从图像到3D

根据第一阶段生成的 3D 素材和最初的文本提示词，**对第一阶段的素材进行纹理细化或者重新着色，来生成更高质量的纹理和 PBR（physically based rendering，基于物理的渲染）图**。这一阶段使用了Meta团队的从文本到纹理（ text-to-texture）的生成模型 3D TextureGen。

第二阶段推理时间约为 20 秒。

相比业内其他技术，Meta的TextureGen生成的纹理质量非常高。图源：Meta论文

通过构建 AssetGen 和 TextureGen两个组件，3D Gen模型将3D物体的三种高度互补的表现方式结合起来：视觉空间（图像）、体积空间（3D 形状和外观）以及 UV 空间（纹理与质地）。

与许多最先进的解决方案不同，AssetGen 和 TextureGen 都是前馈生成器，因此在部署后既快速又高效。

下图显示了 3D Gen 从第一阶段到第二阶段处理后的效果对比。第二阶段后通常具有更高的视觉美学，看起来更逼真，并且在高频颜色区有更多细节。

△第一阶段效果。图源：Meta论文

△第二阶段处理后的效果。图源：Meta论文

Meta团队将3D Gen与其他文生3D模型同行们（Meshy v3、Tripo等）进行了比较。Meta表示，竞争对手们在简单物体上做得很好，但更复杂的物体组合和场景就有挑战了，而且展现高频区细节与暴露视觉伪影之间总是难以平衡。

3D Gen还可以在同一形状的物体上，进行不同的着色。在第一阶段生成的 3D 网格，然后传递到第二阶段，只要使用不同的提示词，就能创建具有相同形状但外观不同的新素材。除了实现语义编辑并执行全局和局部修改之外，3D Gen 还可以成功地模仿不同的材料和艺术风格。

在同一形状的物体上，进行不同的着色

除了对物体本身进行不同着色，3D Gen还能调整整体场景的风格。通过对物体层面的提示词进行加强，加上风格信息，就能将整个场景的风格进行调整，效果很协调。

在下图中，3D Gen就对同样的物体，进行不同风格的场景渲染，有针织玩偶、恐怖电影、水下世界、像素艺术、圣诞节等风格。

调整整体场景的风格

90后研发团队

Gen 3D的研发团队也非常年轻，基本都是由90后组成。

**Raphael Bensadoun**

Raphael Bensadoun

他毕业于特拉维夫大学，之后在两家小公司有过时间不长的工作经历，之后来到Meta成为了AI研究人员。

Raphael Bensadoun

**Tom Monnier**

Tom Monnier

他毕业于法国最好的工程师大学，然后在Tinyclues和Adobe工作了一段时间之后，进入Meta担任研究科学家。

Tom Monnier

**Filippos Kokkinos**

Filippos Kokkinos

他是Meta GenAI的研究科学家，此前曾在Facebook AI Research(FAIR)工作。他的研究以生成性深度学习为中心，特别关注视频和从文本、图像和视频生成3D的技术。在加入Meta之前他曾经在华为等公司实习过。

他博士毕业于伦敦大学学院。

Filippos Kokkinos

Meta的3D Gen的潜在应用是巨大的。游戏开发人员可以用3D Gen快速制作游戏环境和角色原型，建筑可视化公司则只需要文本描述，就能生成建筑物整体和内部的详细 3D 模型，简化设计流程。在VR/MR领域，3D Gen 可以快速创建沉浸式环境和物体，加速元宇宙应用程序的开发。AI的未来将会进一步加速。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/811007.html

随机主题

宁波建工: 子公司牵头联合体中标6.69亿元EPC项目又一古装大剧要播了? 预计5月29日上线, 三大看点有望成爆款一公里油耗才6毛钱开瑞优劲致富又带劲伊朗给印度送大礼，莫迪没来得及高兴一下，国内就传来了惨痛噩耗华为智选车“第四界”进入倒计时！首款百万级豪车即将诞生降价就会冲的小米手机, 很多人直接选了这两款, 小米13Ultra在内末节15分&一断一投收比赛! Skip: 东契奇打得像世界最佳球员爱德华兹: 欧文果然名不虚传, 后悔没听詹姆斯给我的2个建议千元档王炸, vivo Y200 GT: 旗舰同款大电池, 重新定义Y系列~宋轶, 好好爱你《暗黑破坏神4》S4迎复兴, Steam在线人数创新高搞笑配音：老美对日本提供核武器，没想到竟然要收三十亿保护费国内最大的硝盐储能新材料项目开工如何让爱车实现无线carplay功能？TVB港剧推荐! 值得N刷的三部经典武侠剧!直播：解放军台岛周边联合演训最新情况狼派磁白轴上手体验 2023年质量上乘的10部网大电影, 部部有惊喜, 你看了几部?都2024年了, 为何还有那么多人选择买手动挡? 我说这才是根本原因梦幻西游: 雪山A哥买物暴伤害装备, 蝗虫家族向商人霸气喊话!宝马“最美”轿跑, 软顶敞篷+无边框车门+水晶挡把, 还有混动系统

最新回复(0)