💡
原文中文,约3000字,阅读约需7分钟。
📝
内容提要
上海人工智能实验室推出新一代视频生成大模型“书生・筑梦 2.0”,支持5至20秒视频生成,分辨率高达720x480。该模型集成视频增强算法VEnhancer,显著提升视频质量和稳定性,并采用扩散式Transformer架构,优化训练框架,提升显存使用效率,适用于分钟级视频生成。
🎯
关键要点
- 上海人工智能实验室推出新一代视频生成大模型“书生・筑梦 2.0”,支持5至20秒视频生成,分辨率高达720x480。
- 书生・筑梦 2.0 集成了视频增强算法VEnhancer,显著提升视频质量和稳定性,解决了视频抖动等问题。
- 该模型采用扩散式Transformer架构,优化训练框架,提升显存使用效率,适用于分钟级视频生成。
- 书生・筑梦 2.0 支持多种视频格式,包括横屏、竖屏等,扩展了应用场景。
- 新一代视频增强算法VEnhancer可在2K分辨率、24fps下生成更清晰、流畅的视频。
- 书生・筑梦 2.0 在开源2B模型中表现卓越,性能可媲美开源最优的5B模型。
- 模型架构采用扩散式Transformer网络,通过自注意力、交叉注意力和时间注意力处理视频信息。
- 训练框架LiteGen通过Activation Offload与Sequence Parallel技术优化显存使用,支持更大序列长度的训练。
❓
延伸问答
书生·筑梦 2.0支持生成多长的视频?
书生·筑梦 2.0支持生成5至20秒的视频。
书生·筑梦 2.0的分辨率是多少?
书生·筑梦 2.0的生成视频分辨率高达720x480。
VEnhancer算法有什么优势?
VEnhancer算法显著提升视频质量和稳定性,解决了视频抖动等问题,并可在2K分辨率下生成更清晰、流畅的视频。
书生·筑梦 2.0采用了什么样的模型架构?
书生·筑梦 2.0采用了扩散式Transformer网络模型。
LiteGen训练框架的优化措施有哪些?
LiteGen框架通过Activation Offload与Sequence Parallel技术优化显存使用,支持更大序列长度的训练。
书生·筑梦 2.0适用于哪些视频格式?
书生·筑梦 2.0支持多种视频格式,包括横屏、竖屏、4:3、9:16和16:9等比例。
➡️