OmniCam: Unified Multimodal Video Generation via Camera Control
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
OmniCam框架结合大语言模型和视频扩散模型,解决了复杂交互和控制能力的挑战,实现了时空一致的视频生成,支持多种输入模态组合,并提供精确的相机运动控制。OmniTr数据集为训练提供高质量的长序列轨迹和视频描述,模型在多项指标上表现优异。
🎯
关键要点
- OmniCam框架结合了大语言模型和视频扩散模型,解决了复杂交互和控制能力的挑战。
- OmniCam实现了时空一致的视频生成,支持多种输入模态组合。
- 该框架提供了精确的相机运动控制。
- OmniTr数据集为训练提供了高质量的长序列轨迹和视频描述。
- 模型在多项指标上表现优异,展现了最先进的性能。
➡️