ViewDiff:利用文本到图像模型的 3D 一致图像生成
原文中文,约400字,阅读约需1分钟。发表于: 。本文提出一种新的方法,利用预训练的文字转图像模型作为先验知识,从真实世界数据中的单个去噪过程中生成多视角图像,并且通过在现有 U-Net 网络的每个块中整合 3D 体渲染和跨帧注意力层,设计出自回归生成方法,在任意视点上呈现更具一致性的 3D 图像。与现有方法相比,我们的方法生成的结果是一致的,并且具有优秀的视觉质量(FID 降低 30%,KID 降低 37%)。
该研究介绍了一种创新的3D体积编码器,用于文字到3D生成。研究开发了轻量级网络,从多视图图像中获取特征体积,并使用3D U-Net对3D体积进行训练。该模型在公共Objaverse数据集上展示了有希望的结果。研究通过引入高效、灵活和可扩展的表示方法,对3D生成有显著贡献。