ECCV 2024 | 引入DiT的原生3D通用框架,适用任意神经场、秒级生成

ECCV 2024 | 引入DiT的原生3D通用框架,适用任意神经场、秒级生成

💡 原文中文,约3500字,阅读约需9分钟。
📝

内容提要

南洋理工大学、上海AI Lab和北京大学的研究者提出了名为LN3Diff的原生3D LDM生成框架,通过使用3D VAE和3D-DiT进行两阶段通用3D生成,解决了现有原生3D生成模型的可拓展性差、训练效率低和泛化性差等问题。LN3Diff在多个基准测试中取得了优异成绩,并具有更快的推理速度。

🎯

关键要点

  • 南洋理工大学、上海AI Lab和北京大学的研究者提出了LN3Diff的原生3D LDM生成框架。

  • LN3Diff通过使用3D VAE和3D-DiT进行两阶段通用3D生成,解决了现有模型的可拓展性差、训练效率低和泛化性差的问题。

  • LN3Diff在多个基准测试中取得了优异成绩,并具有更快的推理速度。

  • 研究者提出将基于LDM的原生生成框架引入3D生成,通过在3D隐空间直接进行diffusion采样实现高效、高质量的3D资产生成。

  • 3D-aware VAE模型用于高效信息压缩,兼容3D模态,使用多视图图像作为输入。

  • 在解码器端,使用基于3D-DiT的VAE解码器,提出Self-plane attention与Cross-plane attention以提升3D-aware表达能力。

  • 在训练完成的3D VAE空间上进行conditional的diffusion训练,支持text/image conditioned生成。

  • 在ShapeNet和Objaverse数据集上进行实验,LN3Diff在各项指标上均取得了SoTA性能。

  • LN3Diff支持从文本描述和单目图片条件下生成高质量3D资产,生成过程仅需数秒。

  • 项目所有模型和代码已开源至Github/Huggingface,支持多卡训练和加速技巧。

➡️

继续阅读