Direct3D:基于 3D 潜在扩散变换的可扩展图像到 3D 生成
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
本文介绍了一种直接的3D生成模型(Direct3D),通过D3D-VAE和D3D-DiT两个组成部分,可以从文本和图像生成高质量的3D模型。D3D-DiT对编码的3D潜在分布进行建模,实现了可扩展到大规模3D数据集的原生3D生成模型。实验证明,Direct3D相对于以前的方法具有更好的生成质量和泛化能力。
🎯
关键要点
- 本文介绍了一种直接的3D生成模型(Direct3D),可以从文本和图像生成高质量的3D模型。
- Direct3D由两个主要组成部分构成:D3D-VAE和D3D-DiT。
- D3D-VAE将高分辨率的3D形状编码成紧凑的潜在三平面空间。
- D3D-DiT对编码的3D潜在分布进行建模,能够扩展到大规模3D数据集。
- 该模型通过半连续表面采样策略直接监督解码几何形状,区别于以往依赖渲染图像的方法。
- 引入了一种创新的从图像到3D的生成流程,结合语义和像素级图像条件。
- 大量实验证明,Direct3D在生成质量和泛化能力上优于以前的图像到3D方法,树立了新的最先进水平。
➡️