FlowZero:基于 LLM 驱动的动态场景语法的零样本文本到视频合成
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
ModelScopeT2V是一个文本到视频合成模型,通过时空块确保帧生成和运动过渡的一致性。该模型适用于不同帧数量的图像-文本和视频-文本数据集,具有17亿参数,其中5亿参数用于时序能力。在三个评估指标上表现出优越性能,优于现有方法。
🎯
关键要点
- ModelScopeT2V是一个文本到视频合成模型,演变自文本到图像合成模型。
- 模型包含时空块,以确保一致的帧生成和平滑的运动过渡。
- 适用于不同帧数量的图像-文本和视频-文本数据集。
- ModelScopeT2V拥有17亿参数,其中5亿参数专门用于时序能力。
- 在三个评估指标上表现出优越性能,优于现有方法。
- 代码和在线演示可在https://modelscope.cn/models/damo/text-to-video-synthesis/summary找到。
➡️