ConditionVideo: 无需训练的条件引导文本到视频生成

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种无需训练的文本到视频生成方法,利用现有的文本到图像生成方法生成逼真的动态视频。该方法将运动表示明确地分为条件引导和场景运动组成,并引入了稀疏双向时空注意力来改善时序一致性。与其他方法相比,该方法在帧一致性、剪辑评分和条件精度方面表现出卓越性能。

🎯

关键要点

  • 介绍了一种无需训练的文本到视频生成方法。
  • 该方法利用现有的文本到图像生成技术生成动态视频。
  • 运动表示被明确分为条件引导和场景运动。
  • 引入稀疏双向时空注意力以改善时序一致性。
  • 该方法在帧一致性、剪辑评分和条件精度方面表现优越。
➡️

继续阅读