G3PT:通过跨尺度查询变压器释放自回归建模在3D生成中的潜力

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文介绍了一种直接的3D生成模型(Direct3D),它可以从图像生成高质量的3D模型。该方法包括一个直接的3D变分自动编码器(D3D-VAE)和一个直接的3D扩散变换器(D3D-DiT)。实验证明,该模型具有更好的生成质量和泛化能力。

🎯

关键要点

  • 本文介绍了一种直接的3D生成模型(Direct3D),可以从图像生成高质量的3D模型。
  • 该模型包括两个主要组成部分:直接的3D变分自动编码器(D3D-VAE)和直接的3D扩散变换器(D3D-DiT)。
  • D3D-VAE将高分辨率的3D形状编码成紧凑的潜在三平面空间,采用半连续表面采样策略进行解码。
  • D3D-DiT对编码的3D潜在分布进行建模,融合三个特征图的位置信息,支持大规模3D数据集的生成。
  • 引入了一种创新的从图像到3D的生成流程,结合语义和像素级图像条件。
  • 大量实验证明,Direct3D在生成质量和泛化能力上优于以前的图像到3D方法,树立了新的3D内容创建标准。
➡️

继续阅读