大词汇量三维扩散模型与变压器
原文中文,约300字,阅读约需1分钟。发表于: 。使用三平面的三维感知扩散模型与 Transformer 架构,通过改善三维表示、处理几何和纹理的巨大变化、增强复杂对象的三维知识,提出一个能生成大量多样性、丰富语义以及高质量的真实世界三维对象的单一 DiffTF 模型,该模型在 ShapeNet 和 OmniObject3D 的广泛实验中表现出最先进的大量词汇三维对象生成性能。
该文提出了一种使用基于文本转图像的扩散模型进行文本到3D合成的方法,绕过了需要大规模标记的3D数据集和能够去噪的3D数据的限制。该方法使用梯度下降优化3D模型,并使用概率密度蒸馏引入的损失函数将2D扩散模型与3D模型相结合。该方法不需要3D训练数据,也不需要修改图像扩散模型,证明了使用预训练的图像扩散模型作为先验的有效性。