LT3SD:用于三维场景扩散的潜在树模型

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文介绍了Direct3D,一种直接的3D生成模型,包括D3D-VAE和D3D-DiT两个主要组成部分。D3D-VAE通过编码高分辨率的3D形状为紧凑的潜在三平面空间,并通过半连续表面采样策略监督解码几何形状。D3D-DiT对编码的3D潜在分布进行建模,并融合位置信息,实现了可扩展到大规模3D数据集的原生3D生成模型。实验证明,Direct3D具有更好的生成质量和泛化能力,树立了3D内容创建的新的最先进水平。

🎯

关键要点

  • Direct3D是一种直接的3D生成模型,能够处理野外输入图像。
  • Direct3D包括两个主要组成部分:D3D-VAE和D3D-DiT。
  • D3D-VAE将高分辨率的3D形状编码为紧凑的潜在三平面空间,并通过半连续表面采样策略监督解码几何形状。
  • D3D-DiT对编码的3D潜在分布进行建模,融合位置信息,实现可扩展的原生3D生成模型。
  • 引入了一种从图像到3D的生成流程,结合语义和像素级图像条件。
  • 大量实验证明,Direct3D在生成质量和泛化能力上优于以前的图像到3D方法,树立了新的最先进水平。
➡️

继续阅读