InVi: 使用现成的扩散模型进行视频中的对象插入
原文中文,约300字,阅读约需1分钟。发表于: 。通过使用现成的文本到图像潜在扩散模型,我们引入了 InVi 方法,用于在视频中插入或替换对象(称为补全),目标是控制性地操作对象并将其与背景视频无缝融合,我们采用了两个关键挑战的方法:利用补全和匹配来获得高质量的控制和融合;为了确保时序一致性,我们将扩散模型的自注意层替换为扩展注意层。实验证明,InVi 方法在实现逼真的对象插入以及帧之间的一致融合和时序一致性方面优于现有方法。
本文介绍了语言驱动的视频修复任务和ROVI数据集。作者提出了基于扩散的语言驱动视频修复框架,整合了多模态大规模语言模型,能够有效地理解和执行复杂的修复请求。作者展示了数据集的多样性和模型在各种语言指导下的有效性。计划公开发布数据集、代码和模型。