BriefGPT - AI 论文速递 ·

OmniCam: Unified Multimodal Video Generation via Camera Control

💡 原文英文，约100词，阅读约需1分钟。

📝

内容提要

OmniCam框架结合大语言模型和视频扩散模型，解决了复杂交互和控制能力的挑战，实现了时空一致的视频生成，支持多种输入模态组合，并提供精确的相机运动控制。OmniTr数据集为训练提供高质量的长序列轨迹和视频描述，模型在多项指标上表现优异。

🎯

关键要点

OmniCam框架结合了大语言模型和视频扩散模型，解决了复杂交互和控制能力的挑战。
OmniCam实现了时空一致的视频生成，支持多种输入模态组合。
该框架提供了精确的相机运动控制。
OmniTr数据集为训练提供了高质量的长序列轨迹和视频描述。
模型在多项指标上表现优异，展现了最先进的性能。

🏷️

标签

OmniCam OmniTr数据集大语言模型相机控制视频生成

➡️

继续阅读