Vid3D:使用 2D 视频扩散合成动态 3D 场景

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种名为4Diffusion的新型4D生成管道,通过结合可学习的运动模块和冻结的3D感知扩散模型,设计了一个统一扩散模型,以捕捉多视图空间时间相关性。通过训练扩散模型,获得了合理的时间一致性,并保留了3D感知扩散模型的泛化性和空间一致性。通过优化动态NeRF参数化的4D表示,实现了生成空间时间一致的4D内容。实验证明,该方法具有更好的性能。

🎯

关键要点

  • 提出了一种新型4D生成管道,名为4Diffusion。

  • 4Diffusion旨在从单目视频中生成空间时间一致的4D内容。

  • 结合可学习的运动模块和冻结的3D感知扩散模型,设计了统一扩散模型。

  • 该模型能够捕捉多视图空间时间相关性。

  • 通过训练扩散模型,实现合理的时间一致性,保留3D感知扩散模型的泛化性和空间一致性。

  • 提出了基于多视图视频扩散模型的4D感知得分蒸馏采样损失,以优化4D表示。

  • 设计了锚点损失以增强外观细节并促进动态NeRF的学习。

  • 实验证明该方法相比之前的方法具有更好的性能。

➡️

继续阅读