FlowZero：基于 LLM 驱动的动态场景语法的零样本文本到视频合成

Text-to-video generation using FlowZero, a framework that combines Large Language Models (LLMs) with image diffusion models, achieves improvement in zero-shot video synthesis by generating...

ModelScopeT2V是一个文本到视频合成模型，通过时空块确保帧生成和运动过渡的一致性。该模型适用于不同帧数量的图像-文本和视频-文本数据集，具有17亿参数，其中5亿参数用于时序能力。在三个评估指标上表现出优越性能，优于现有方法。

ModelScopeT2V llm 帧生成文本到视频合成时空块运动过渡