ECCV 2024 | 引入DiT的原生3D通用框架,适用任意神经场、秒级生成

ECCV 2024 | 引入DiT的原生3D通用框架,适用任意神经场、秒级生成

💡 原文中文,约3500字,阅读约需9分钟。
📝

内容提要

南洋理工大学、上海AI Lab和北京大学的研究者提出了名为LN3Diff的原生3D LDM生成框架,通过使用3D VAE和3D-DiT进行两阶段通用3D生成,解决了现有原生3D生成模型的可拓展性差、训练效率低和泛化性差等问题。LN3Diff在多个基准测试中取得了优异成绩,并具有更快的推理速度。

🎯

关键要点

  • 南洋理工大学、上海AI Lab和北京大学的研究者提出了LN3Diff的原生3D LDM生成框架。

  • LN3Diff通过使用3D VAE和3D-DiT进行两阶段通用3D生成,解决了现有模型的可拓展性差、训练效率低和泛化性差的问题。

  • LN3Diff在多个基准测试中取得了优异成绩,并具有更快的推理速度。

  • 研究者提出将基于LDM的原生生成框架引入3D生成,通过在3D隐空间直接进行diffusion采样实现高效、高质量的3D资产生成。

  • 3D-aware VAE模型用于高效信息压缩,兼容3D模态,使用多视图图像作为输入。

  • 在解码器端,使用基于3D-DiT的VAE解码器,提出Self-plane attention与Cross-plane attention以提升3D-aware表达能力。

  • 在训练完成的3D VAE空间上进行conditional的diffusion训练,支持text/image conditioned生成。

  • 在ShapeNet和Objaverse数据集上进行实验,LN3Diff在各项指标上均取得了SoTA性能。

  • LN3Diff支持从文本描述和单目图片条件下生成高质量3D资产,生成过程仅需数秒。

  • 项目所有模型和代码已开源至Github/Huggingface,支持多卡训练和加速技巧。

延伸问答

LN3Diff框架的主要创新点是什么?

LN3Diff框架通过结合3D VAE和3D-DiT,采用两阶段通用3D生成方法,解决了现有模型的可拓展性差、训练效率低和泛化性差的问题。

LN3Diff在生成3D资产时的速度如何?

LN3Diff在生成高质量3D资产时,生成过程仅需数秒。

LN3Diff支持哪些类型的条件生成?

LN3Diff支持基于文本描述和单目图片的条件生成。

LN3Diff在基准测试中的表现如何?

LN3Diff在多个基准测试中取得了优异成绩,并在ShapeNet和Objaverse数据集上表现出SoTA性能。

LN3Diff的开源情况如何?

LN3Diff的所有模型和代码已开源至Github和Huggingface,支持多卡训练和加速技巧。

LN3Diff如何提高3D生成的质量?

LN3Diff通过在3D隐空间直接进行diffusion采样和使用3D-aware VAE模型来提高3D生成的质量。

🏷️

标签

➡️

继续阅读