基于预训练扩散引导的单图像新视角合成

本研究针对现有三维新视角合成方法在复杂场景处理上的不足，通过提出HawkI++方法，能够从单一输入图像生成可控的摄像头视角。该方法无需额外的三维数据或繁重的训练，利用预训练的NVS模型进行弱引导，实现高保真度、一致性的视角合成，显著优于现有模型。

该文章介绍了一种用于野外场景下的单图像新视图合成的三维感知扩散模型ZeroNVS。通过训练生成式先验模型来处理多物体场景和复杂背景的挑战，并提出了相机条件参数化和归一化方案来解决深度尺度的二义性问题。作者还注意到Score Distillation Sampling（SDS）在蒸馏360度场景时倾向于截断复杂背景的分布，并提出了“SDS anchoring”以改善合成新视图的多样性。该模型在DTU数据集的零样本设置中取得了新的LPIPS优势，并在Mip-NeRF 360数据集上展现出强大的性能。