小红花·文摘

该研究介绍了CogVideo，一个9B参数的预训练文本到视频模型，表现优于现有模型。研究还提出了多文本视频生成模型，强调视觉一致性和时间连续性。FlashVideo框架提升了推理速度，UniCtrl方法增强了生成视频的一致性，VSTAR方法改善了长视频的动态性，Diffusion models则提升了复杂视频生成的精确性。