ViewDiff：利用文本到图像模型的 3D 一致图像生成

本文提出一种新的方法，利用预训练的文字转图像模型作为先验知识，从真实世界数据中的单个去噪过程中生成多视角图像，并且通过在现有 U-Net 网络的每个块中整合 3D 体渲染和跨帧注意力层，设计出自回归生成方法，在任意视点上呈现更具一致性的 3D 图像。与现有方法相比，我们的方法生成的结果是一致的，并且具有优秀的视觉质量（FID 降低 30%，KID 降低 37%）。

该研究介绍了一种创新的3D体积编码器，用于文字到3D生成。研究开发了轻量级网络，从多视图图像中获取特征体积，并使用3D U-Net对3D体积进行训练。该模型在公共Objaverse数据集上展示了有希望的结果。研究通过引入高效、灵活和可扩展的表示方法，对3D生成有显著贡献。