机器之心 ·

开源！上海AI Lab视频生成大模型书生·筑梦 2.0来了

💡 原文中文，约3000字，阅读约需7分钟。

📝

内容提要

上海人工智能实验室推出新一代视频生成大模型“书生・筑梦 2.0”，支持5至20秒视频生成，分辨率高达720x480。该模型集成视频增强算法VEnhancer，显著提升视频质量和稳定性，并采用扩散式Transformer架构，优化训练框架，提升显存使用效率，适用于分钟级视频生成。

🎯

关键要点

上海人工智能实验室推出新一代视频生成大模型“书生・筑梦 2.0”，支持5至20秒视频生成，分辨率高达720x480。
书生・筑梦 2.0 集成了视频增强算法VEnhancer，显著提升视频质量和稳定性，解决了视频抖动等问题。
该模型采用扩散式Transformer架构，优化训练框架，提升显存使用效率，适用于分钟级视频生成。
书生・筑梦 2.0 支持多种视频格式，包括横屏、竖屏等，扩展了应用场景。
新一代视频增强算法VEnhancer可在2K分辨率、24fps下生成更清晰、流畅的视频。
书生・筑梦 2.0 在开源2B模型中表现卓越，性能可媲美开源最优的5B模型。
模型架构采用扩散式Transformer网络，通过自注意力、交叉注意力和时间注意力处理视频信息。
训练框架LiteGen通过Activation Offload与Sequence Parallel技术优化显存使用，支持更大序列长度的训练。

❓

延伸问答

书生·筑梦 2.0支持生成多长的视频？

书生·筑梦 2.0支持生成5至20秒的视频。

书生·筑梦 2.0的分辨率是多少？

书生·筑梦 2.0的生成视频分辨率高达720x480。

VEnhancer算法有什么优势？

VEnhancer算法显著提升视频质量和稳定性，解决了视频抖动等问题，并可在2K分辨率下生成更清晰、流畅的视频。

书生·筑梦 2.0采用了什么样的模型架构？

书生·筑梦 2.0采用了扩散式Transformer网络模型。

LiteGen训练框架的优化措施有哪些？

LiteGen框架通过Activation Offload与Sequence Parallel技术优化显存使用，支持更大序列长度的训练。

书生·筑梦 2.0适用于哪些视频格式？

书生·筑梦 2.0支持多种视频格式，包括横屏、竖屏、4:3、9:16和16:9等比例。

🏷️

标签

Transformer ai 上海人工智能大模型开源模型视频增强视频生成

➡️

继续阅读

大模型启示：泛化是进化能力的一次重大飞跃
这篇文章探讨了生命进化与人工智能大模型之间的相似性，强调泛化能力的出现是进化的重要飞跃。复杂的基因调控网络使生物能够从经验中提炼规律，适应新环境，类似于大...
Epidemic Group收购Blenda Labs，将业务范围扩展到视频领域
Epidemic Group收购了斯德哥尔摩的视频娱乐公司Blenda Labs，扩展至视频领域。Blenda Labs结合人工智能与创意，提供高质量视频...
一项新研究揭穿了人们对AI和开源的最大担忧
北京大学的一项研究分析了1888个使用AI编码工具的GitHub项目，发现新贡献者参与率保持稳定，甚至略有上升。尽管AI生成的代码复杂性增加，但并未阻碍新...
为什么大多数人工智能项目失败：基础设施和人力问题
许多企业的人工智能原型未能转化为生产应用，主要由于数据基础设施不足和运营团队人力不足。原型环境缺乏灵活性、安全性和可靠性，导致数据主权问题。开发者倾向于使...
各国如何部署人工智能以满足战略优先事项
各国正在利用基础设施和数据发展人工智能（AI），以满足国家战略需求。AI推动经济增长、国家安全和文化保护。国家AI战略包括本地AI能力、人才培养、模型和数...
深入创作者经济的大生意，揭示推动其发展的代理人
本文讨论了创作者经济的现状，特别是美国人才代理公司UTA的创作者部门如何帮助创作者建立可持续的商业模式。Ali Berman和Raina Penchans...