LOONG:一款基于自回归 LLM 的新型视频生成器,可生成长达一分钟的视频

LOONG:一款基于自回归 LLM 的新型视频生成器,可生成长达一分钟的视频

💡 原文中文,约1700字,阅读约需4分钟。
📝

内容提要

自回归大语言模型在视频生成中有潜力,但目前仅限短视频。Loong模型通过短到长训练和损失重加权,解决长视频生成中的问题。它使用3D CNN架构,将视频压缩为离散token序列,结合文本生成长视频。适用于低分辨率视频,未来可用于视觉艺术和娱乐,但需注意虚假内容生成。

🎯

关键要点

  • 自回归大语言模型在视频生成中有潜力,但目前仅限短视频。
  • Loong模型通过短到长训练和损失重加权,解决长视频生成中的问题。
  • Loong使用3D CNN架构,将视频压缩为离散token序列,结合文本生成长视频。
  • 模型训练分为三个阶段:预训练、短视频训练和长视频联合训练。
  • Loong适用于低分辨率视频,未来可用于视觉艺术和娱乐。
  • 需注意虚假内容生成的风险。
➡️

继续阅读