Loong:使用自回归语言模型生成分钟级长视频

💡 原文中文,约700字,阅读约需2分钟。
📝

内容提要

本研究提出了一种名为Loong的新型自回归模型,通过将文本和视频标记统一建模,并采用渐进式训练方法,提升了生成长视频的能力。该模型能从10秒视频扩展生成符合文本提示的长视频,具有创新性和实用性。

🎯

关键要点

  • 本研究提出了一种名为Loong的新型自回归模型。
  • Loong模型通过将文本和视频标记统一建模,提升了生成长视频的能力。
  • 该模型采用渐进式训练方法,从10秒视频扩展生成符合文本提示的长视频。
  • 目前大多数生成模型仅限于短视频,Loong模型具有显著的创新性和实用潜力。
➡️

继续阅读