使用扩散模型的视频插值
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
这篇文章介绍了一种基于提示生成视频的方法,通过训练视频模型,利用低质量视频和合成高质量图像,成功生成了高质量的视频。评估结果显示,该方法在图片质量、动作和概念组合方面表现出优越性。
🎯
关键要点
- 基于给定提示生成视频的文本到视频生成旨在生成可信的视频。
- 商业视频模型能够生成高质量视频,但依赖于高质量视频数据。
- 现有研究使用低质量数据集训练模型,难以生成高质量视频。
- 本文探索从稳定扩散延伸的视频模型训练方案。
- 研究利用低质量视频和合成高质量图像获取高质量视频模型的可行性。
- 分析视频模型的空间和时域模块与低质量视频的分布偏移的关联。
- 完整训练所有模块可导致空间和时域模块之间更强的耦合。
- 通过高质量图像微调空间模块,成功转移分布至更高质量。
- 评估结果显示该方法在图片质量、动作和概念组合方面表现优越。
➡️