Loong:使用自回归语言模型生成分钟级长视频
💡
原文中文,约700字,阅读约需2分钟。
📝
内容提要
本研究提出了一种名为Loong的新型自回归模型,通过将文本和视频标记统一建模,并采用渐进式训练方法,提升了生成长视频的能力。该模型能从10秒视频扩展生成符合文本提示的长视频,具有创新性和实用性。
🎯
关键要点
- 本研究提出了一种名为Loong的新型自回归模型。
- Loong模型通过将文本和视频标记统一建模,提升了生成长视频的能力。
- 该模型采用渐进式训练方法,从10秒视频扩展生成符合文本提示的长视频。
- 目前大多数生成模型仅限于短视频,Loong模型具有显著的创新性和实用潜力。
➡️