OmniCam: Unified Multimodal Video Generation via Camera Control

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

OmniCam框架结合大语言模型和视频扩散模型,解决了复杂交互和控制能力的挑战,实现了时空一致的视频生成,支持多种输入模态组合,并提供精确的相机运动控制。OmniTr数据集为训练提供高质量的长序列轨迹和视频描述,模型在多项指标上表现优异。

🎯

关键要点

  • OmniCam框架结合了大语言模型和视频扩散模型,解决了复杂交互和控制能力的挑战。
  • OmniCam实现了时空一致的视频生成,支持多种输入模态组合。
  • 该框架提供了精确的相机运动控制。
  • OmniTr数据集为训练提供了高质量的长序列轨迹和视频描述。
  • 模型在多项指标上表现优异,展现了最先进的性能。
➡️

继续阅读