潜在变形:用于零样本视频到视频翻译的一致性扩散潜变量
原文中文,约300字,阅读约需1分钟。发表于: 。通过图像扩散模型的生成能力,我们提出了一种名为 LatentWarp 的新的零样本视频 - 视频翻译框架,通过约束查询令牌的时间一致性,在潜在空间中进一步结合了变形操作以约束查询令牌,从而实现了生成视频的视觉时间相干性的提升。
StableVideo是一种文本驱动视频编辑框架,通过引入时态依赖于现有的文本驱动扩散模型,解决了扩散模型在自然视频编辑中编辑现有对象时难以保持其外观随时间稳定的问题。该框架利用分层表示的概念将相邻帧的外观信息传播到下一帧,实现了一致感知的视频编辑。实验证明该方法具有强大的编辑能力,展示了卓越的定性和定量结果。