小红花·文摘

本研究提出了一种基于去噪扩散概率模型的视频建模框架，能够生成长达25分钟的高质量视频。通过引入多种文本条件，扩展了文本驱动视频生成的能力，并提出了新的自我关注计算方式和语义运动预测模块，显著提升了视频生成效果。此外，研究探讨了低质量视频训练高质量模型的可行性，取得了显著成果。