奇虎360-AIGC团队和中山大学联合研发的FancyVideo是一种基于UNet架构的视频生成模型,可在消费级显卡上生成任意分辨率、宽高比、风格和运动幅度的视频。通过跨帧文本引导模块,FancyVideo改进了现有文本控制机制,提高了视频生成的质量、文本一致性、运动性和时序一致性。该模型在EvalCrafter Benchmark、UCF-101和MSR-VTT Benchmark上取得了领先的结果。FancyVideo还支持视频扩展和视频回溯操作。未来,FancyVideo团队计划发布更好的模型并上线网页版本供免费使用。
该研究介绍了CogVideo,一个9B参数的预训练文本到视频模型,表现优于现有模型。研究还提出了多文本视频生成模型,强调视觉一致性和时间连续性。FlashVideo框架提升了推理速度,UniCtrl方法增强了生成视频的一致性,VSTAR方法改善了长视频的动态性,Diffusion models则提升了复杂视频生成的精确性。
完成下面两步后,将自动完成登录并继续当前操作。