机器之心 ·

CVPR 2025 HighLight｜打通视频到3D的最后一公里，清华团队推出一键式视频扩散模型VideoScene

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

清华大学研究团队提出了VideoScene，一种专注于3D场景生成的“一步式”视频扩散模型。该模型通过3D跃迁流蒸馏策略加速推理，并结合动态降噪策略，提高生成效率和质量。实验结果表明，VideoScene在速度和质量上均优于现有模型，具有广泛的应用潜力。

🎯

🔎

VideoScene通过3D跃迁流蒸馏策略和动态降噪策略，显著提高了3D场景生成的效率和质量。这种技术创新使得模型在处理复杂场景时，能够更好地保持物体结构的稳定性，减少了传统方法中常见的物体漂移和结构坍塌问题。

随着VR/AR和自动驾驶等领域对3D场景生成的需求增加，VideoScene展现出广泛的应用潜力。然而，尽管其在速度和质量上优于现有模型，仍需关注在实际应用中可能遇到的计算资源消耗和实时性问题。

VideoScene在ReconX的基础上进行了重要改进，成为其“turbo版本”。通过跳过冗余步骤，VideoScene不仅加速了生成过程，还提高了3D结构信息的准确性。这一进步使得VideoScene在稀疏视角重建领域具有更强的竞争力。

❓

VideoScene是一种专注于3D场景生成的一步式视频扩散模型。

VideoScene通过3D跃迁流蒸馏策略加速推理，并结合动态降噪策略，提高生成效率和质量。

VideoScene在速度和质量上均优于现有模型，能够更高效地生成高质量的3D场景。

稀疏视角重建面临匹配点不足和几何约束缺失的问题，导致生成的3D模型存在瑕疵。

动态降噪策略能够根据视频内容的动态变化实时调整降噪参数，确保生成视频的高质量和高效率。

VideoScene在实时游戏和自动驾驶等领域具有广泛的应用潜力，能够高效重建3D场景。

🏷️