Vid3D：使用 2D 视频扩散合成动态 3D 场景

该研究讨论了计算机视觉中的一个前沿课题，3D 视频生成，以生成场景的时变 3D 表示为目标。通过提出 Vid3D 模型，研究表明可以通过生成视频的二维 “种子” 和独立生成每个时间步的三维表示，来实现高质量的动态 3D 场景生成，从而不再需要显式建模多视角一致性或三维时间动态，为此任务提供更简单的生成算法。

本文介绍了一种名为4Diffusion的新型4D生成管道，通过结合可学习的运动模块和冻结的3D感知扩散模型，设计了一个统一扩散模型，以捕捉多视图空间时间相关性。通过训练扩散模型，获得了合理的时间一致性，并保留了3D感知扩散模型的泛化性和空间一致性。通过优化动态NeRF参数化的4D表示，实现了生成空间时间一致的4D内容。实验证明，该方法具有更好的性能。