VIP: 基于多模态大型语言模型的多功能图像外描绘

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了语言驱动的视频修复任务和ROVI数据集。作者提出了基于扩散的语言驱动视频修复框架,整合了多模态大规模语言模型,能够有效地理解和执行复杂的修复请求。作者展示了数据集的多样性和模型在不同语言指导下的有效性。计划公开发布数据集、代码和模型。

🎯

关键要点

  • 介绍了一种新的任务 - 语言驱动的视频修复,使用自然语言指令指导修复过程。
  • 提出了 Remove Objects from Videos by Instructions (ROVI) 数据集,包含 5,650 个视频和 9,091 个修复结果。
  • 提出了一种新的基于扩散的语言驱动视频修复框架,是该任务的第一个端到端基线。
  • 该框架有效整合了多模态大规模语言模型,能够理解和执行复杂的基于语言的修复请求。
  • 结果展示了数据集的多样性和模型在不同语言指导下的修复场景中的有效性。
  • 计划公开发布数据集、代码和模型。
➡️

继续阅读