Vid3D:使用 2D 视频扩散合成动态 3D 场景
原文中文,约400字,阅读约需1分钟。发表于: 。该研究讨论了计算机视觉中的一个前沿课题,3D 视频生成,以生成场景的时变 3D 表示为目标。通过提出 Vid3D 模型,研究表明可以通过生成视频的二维 “种子” 和独立生成每个时间步的三维表示,来实现高质量的动态 3D 场景生成,从而不再需要显式建模多视角一致性或三维时间动态,为此任务提供更简单的生成算法。
本文介绍了一种名为4Diffusion的新型4D生成管道,通过结合可学习的运动模块和冻结的3D感知扩散模型,设计了一个统一扩散模型,以捕捉多视图空间时间相关性。通过训练扩散模型,获得了合理的时间一致性,并保留了3D感知扩散模型的泛化性和空间一致性。通过优化动态NeRF参数化的4D表示,实现了生成空间时间一致的4D内容。实验证明,该方法具有更好的性能。