FreeMask:重新思考注意力掩码在零-shot视频编辑中的重要性
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了零-shot视频编辑中使用交叉注意力掩码时引入模糊和闪烁等伪影的问题。提出了一个新的度量标准“掩码匹配成本”(MMC),并基于此开发了FreeMask方法,选择适合特定编辑任务的最佳掩码。实验结果表明,FreeMask在语义真实感、时间一致性和编辑质量方面优于现有最先进的方法。
该研究提出了一种文本视频编辑方法,分为两个阶段:首先用文本到图像扩散模型编辑关键帧,然后用MaskINT模型进行帧插值。MaskINT利用非自回归生成变压器,有效指导中间帧结构。实验显示,该方法在效率和效果上优于其他模型,提供了实用的文本视频编辑解决方案。