Apple Machine Learning Research ·

Cavia：可控相机的多视角视频扩散与视图集成注意力

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

近年来，图像到视频生成取得显著进展，但3D一致性和相机可控性问题仍未解决。为此，我们提出了Cavia框架，能够将输入图像转换为多个时空一致的视频，支持精确控制相机运动，同时保持物体运动。实验结果表明，Cavia在几何一致性和感知质量上优于现有方法。

🎯

🔎

Cavia框架在图像到视频生成领域具有重要的创新性。它不仅解决了3D一致性和相机可控性的问题，还允许用户精确控制相机运动，生成同一场景的多个视频。这种灵活性为创作者提供了更多的表达方式，尤其在影视制作和虚拟现实等领域具有广泛的应用潜力。

Cavia在几何一致性和感知质量上优于现有方法，表明其在实际应用中的有效性。这一结果不仅为未来的研究提供了新的方向，也为相关行业的技术进步奠定了基础。用户在选择视频生成工具时，可以关注这些性能指标，以确保生成内容的质量。

尽管Cavia框架在多视角视频生成方面取得了进展，但仍需注意其对数据源的依赖。框架的性能在很大程度上取决于训练数据的多样性和质量。因此，用户在应用该技术时，应考虑数据准备的复杂性和可能的局限性，以确保生成结果的可靠性。

❓

Cavia框架能够将输入图像转换为多个时空一致的视频，并支持精确控制相机运动。

Cavia通过扩展空间和时间注意模块为视图集成注意模块，提升了视角和时间一致性，从而解决了这些问题。

实验结果表明，Cavia在几何一致性和感知质量上优于现有方法。

Cavia支持生成场景级静态视频、物体级合成多视角动态视频和真实世界单目动态视频。

Cavia的灵活设计允许与多样化的数据源进行联合训练，提升生成效果。

Cavia是首个允许用户精确控制相机运动生成同一场景多个视频的框架。

🏷️