通过多模态大型语言模型实现以语言为驱动的视频修复
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该文章介绍了语言驱动的视频修复任务和ROVI数据集。作者提出了基于扩散的语言驱动视频修复框架,整合了多模态大规模语言模型,能够有效地理解和执行复杂的修复请求。作者展示了数据集的多样性和模型在不同语言指导下的有效性。他们还表示将公开发布数据集、代码和模型。
🎯
关键要点
- 介绍了一种新的任务 - 语言驱动的视频修复,使用自然语言指令指导修复过程。
- 提出了 Remove Objects from Videos by Instructions (ROVI) 数据集,包含 5,650 个视频和 9,091 个修复结果。
- ROVI 数据集支持语言驱动的视频修复任务的训练和评估。
- 提出了一种新的基于扩散的语言驱动视频修复框架,这是该任务的第一个端到端基线。
- 该框架有效整合了多模态大规模语言模型,能够理解和执行复杂的基于语言的修复请求。
- 详细结果展示了数据集的多样性和模型在不同语言指导下的修复场景中的有效性。
- 将公开发布数据集、代码和模型。
➡️