LT3SD:用于三维场景扩散的潜在树模型
原文中文,约500字,阅读约需2分钟。发表于: 。本研究提出了一种新颖的潜在扩散模型LT3SD,旨在解决现有三维场景生成方法在空间范围和质量上的局限。我们引入潜在树表示法,有效编码不同频率的几何和细节,从而提高生成复杂多样的三维场景的能力。实验表明,LT3SD在大规模、高质量的无条件三维场景生成及部分场景观察的概率补全方面具有明显优势。
本文介绍了Direct3D,一种直接的3D生成模型,包括D3D-VAE和D3D-DiT两个主要组成部分。D3D-VAE通过编码高分辨率的3D形状为紧凑的潜在三平面空间,并通过半连续表面采样策略监督解码几何形状。D3D-DiT对编码的3D潜在分布进行建模,并融合位置信息,实现了可扩展到大规模3D数据集的原生3D生成模型。实验证明,Direct3D具有更好的生成质量和泛化能力,树立了3D内容创建的新的最先进水平。