💡
原文中文,约3500字,阅读约需9分钟。
📝
内容提要
南洋理工大学、上海AI Lab和北京大学的研究者提出了名为LN3Diff的原生3D LDM生成框架,通过使用3D VAE和3D-DiT进行两阶段通用3D生成,解决了现有原生3D生成模型的可拓展性差、训练效率低和泛化性差等问题。LN3Diff在多个基准测试中取得了优异成绩,并具有更快的推理速度。
🎯
关键要点
-
南洋理工大学、上海AI Lab和北京大学的研究者提出了LN3Diff的原生3D LDM生成框架。
-
LN3Diff通过使用3D VAE和3D-DiT进行两阶段通用3D生成,解决了现有模型的可拓展性差、训练效率低和泛化性差的问题。
-
LN3Diff在多个基准测试中取得了优异成绩,并具有更快的推理速度。
-
研究者提出将基于LDM的原生生成框架引入3D生成,通过在3D隐空间直接进行diffusion采样实现高效、高质量的3D资产生成。
-
3D-aware VAE模型用于高效信息压缩,兼容3D模态,使用多视图图像作为输入。
-
在解码器端,使用基于3D-DiT的VAE解码器,提出Self-plane attention与Cross-plane attention以提升3D-aware表达能力。
-
在训练完成的3D VAE空间上进行conditional的diffusion训练,支持text/image conditioned生成。
-
在ShapeNet和Objaverse数据集上进行实验,LN3Diff在各项指标上均取得了SoTA性能。
-
LN3Diff支持从文本描述和单目图片条件下生成高质量3D资产,生成过程仅需数秒。
-
项目所有模型和代码已开源至Github/Huggingface,支持多卡训练和加速技巧。
➡️