FlowZero:基于 LLM 驱动的动态场景语法的零样本文本到视频合成

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

ModelScopeT2V是一个文本到视频合成模型,通过时空块确保帧生成和运动过渡的一致性。该模型适用于不同帧数量的图像-文本和视频-文本数据集,具有17亿参数,其中5亿参数用于时序能力。在三个评估指标上表现出优越性能,优于现有方法。

🎯

关键要点

  • ModelScopeT2V是一个文本到视频合成模型,演变自文本到图像合成模型。
  • 模型包含时空块,以确保一致的帧生成和平滑的运动过渡。
  • 适用于不同帧数量的图像-文本和视频-文本数据集。
  • ModelScopeT2V拥有17亿参数,其中5亿参数专门用于时序能力。
  • 在三个评估指标上表现出优越性能,优于现有方法。
  • 代码和在线演示可在https://modelscope.cn/models/damo/text-to-video-synthesis/summary找到。
➡️

继续阅读