FLATTEN: 光流引导的注意力技术用于一致的文本 - 视频编辑
原文中文,约300字,阅读约需1分钟。发表于: 。FLATTEN 是一种用于文本到视频编辑的训练无关方法,通过在扩散模型的 U-Net 中引入光流来提高编辑视频的视觉一致性,并且能够无缝集成到任何基于扩散的文本到视频编辑方法中,提高其视觉一致性。
StableVideo是一种文本驱动视频编辑框架,通过引入时态依赖于现有的文本驱动扩散模型,解决了扩散模型在自然视频编辑中编辑现有对象时难以保持其外观随时间稳定的问题。该框架利用分层表示的概念将相邻帧的外观信息传播到下一帧,实现了一致感知的视频编辑。