Direct3D:基于 3D 潜在扩散变换的可扩展图像到 3D 生成

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

本文介绍了一种直接的3D生成模型(Direct3D),通过D3D-VAE和D3D-DiT两个组成部分,可以从文本和图像生成高质量的3D模型。D3D-DiT对编码的3D潜在分布进行建模,实现了可扩展到大规模3D数据集的原生3D生成模型。实验证明,Direct3D相对于以前的方法具有更好的生成质量和泛化能力。

🎯

关键要点

  • 本文介绍了一种直接的3D生成模型(Direct3D),可以从文本和图像生成高质量的3D模型。
  • Direct3D由两个主要组成部分构成:D3D-VAE和D3D-DiT。
  • D3D-VAE将高分辨率的3D形状编码成紧凑的潜在三平面空间。
  • D3D-DiT对编码的3D潜在分布进行建模,能够扩展到大规模3D数据集。
  • 该模型通过半连续表面采样策略直接监督解码几何形状,区别于以往依赖渲染图像的方法。
  • 引入了一种创新的从图像到3D的生成流程,结合语义和像素级图像条件。
  • 大量实验证明,Direct3D在生成质量和泛化能力上优于以前的图像到3D方法,树立了新的最先进水平。
➡️

继续阅读