小红花·文摘

RTX3090可跑，360AI团队开源最新视频模型FancyVideo，红衣大叔都说好

机器之心 ·

该研究介绍了CogVideo，一个9B参数的预训练文本到视频模型，表现优于现有模型。研究还提出了多文本视频生成模型，强调视觉一致性和时间连续性。FlashVideo框架提升了推理速度，UniCtrl方法增强了生成视频的一致性，VSTAR方法改善了长视频的动态性，Diffusion models则提升了复杂视频生成的精确性。

FancyVideo：通过跨帧文本引导实现动态且一致的视频生成

BriefGPT - AI 论文速递 ·