内容提要
南洋理工大学、上海AI Lab和北京大学的研究者提出了名为LN3Diff的原生3D LDM生成框架,通过使用3D VAE和3D-DiT进行两阶段通用3D生成,解决了现有原生3D生成模型的可拓展性差、训练效率低和泛化性差等问题。LN3Diff在多个基准测试中取得了优异成绩,并具有更快的推理速度。
关键要点
-
南洋理工大学、上海AI Lab和北京大学的研究者提出了LN3Diff的原生3D LDM生成框架。
-
LN3Diff通过使用3D VAE和3D-DiT进行两阶段通用3D生成,解决了现有模型的可拓展性差、训练效率低和泛化性差的问题。
-
LN3Diff在多个基准测试中取得了优异成绩,并具有更快的推理速度。
-
研究者提出将基于LDM的原生生成框架引入3D生成,通过在3D隐空间直接进行diffusion采样实现高效、高质量的3D资产生成。
-
3D-aware VAE模型用于高效信息压缩,兼容3D模态,使用多视图图像作为输入。
-
在解码器端,使用基于3D-DiT的VAE解码器,提出Self-plane attention与Cross-plane attention以提升3D-aware表达能力。
-
在训练完成的3D VAE空间上进行conditional的diffusion训练,支持text/image conditioned生成。
-
在ShapeNet和Objaverse数据集上进行实验,LN3Diff在各项指标上均取得了SoTA性能。
-
LN3Diff支持从文本描述和单目图片条件下生成高质量3D资产,生成过程仅需数秒。
-
项目所有模型和代码已开源至Github/Huggingface,支持多卡训练和加速技巧。
延伸问答
LN3Diff框架的主要创新点是什么?
LN3Diff框架通过结合3D VAE和3D-DiT,采用两阶段通用3D生成方法,解决了现有模型的可拓展性差、训练效率低和泛化性差的问题。
LN3Diff在生成3D资产时的速度如何?
LN3Diff在生成高质量3D资产时,生成过程仅需数秒。
LN3Diff支持哪些类型的条件生成?
LN3Diff支持基于文本描述和单目图片的条件生成。
LN3Diff在基准测试中的表现如何?
LN3Diff在多个基准测试中取得了优异成绩,并在ShapeNet和Objaverse数据集上表现出SoTA性能。
LN3Diff的开源情况如何?
LN3Diff的所有模型和代码已开源至Github和Huggingface,支持多卡训练和加速技巧。
LN3Diff如何提高3D生成的质量?
LN3Diff通过在3D隐空间直接进行diffusion采样和使用3D-aware VAE模型来提高3D生成的质量。