全球最大开源视频模型,现在也Created in China了,阶跃出品
💡
原文中文,约5700字,阅读约需14分钟。
📝
内容提要
阶跃星辰与吉利汽车联合开源了两款多模态大模型:Step-Video-T2V和Step-Audio。Step-Video-T2V是全球最大的开源视频生成模型,支持中英双语,能够生成高质量视频;Step-Audio是首个产品级开源语音交互模型,表现出色。两者均采用MIT协议,旨在促进技术共享与创新。
🎯
关键要点
- 阶跃星辰与吉利汽车联合开源了两款多模态大模型:Step-Video-T2V和Step-Audio。
- Step-Video-T2V是全球最大的开源视频生成模型,支持中英双语,能够生成高质量视频。
- Step-Audio是首个产品级开源语音交互模型,表现出色。
- 两款模型均采用MIT协议,旨在促进技术共享与创新。
- Step-Video-T2V参数量达到30B,支持最长204帧、540P分辨率的视频生成。
- Step-Video-T2V采用高压缩比的Video-VAE,提升训练和生成效率。
- Step-Video-T2V在生成视频质量评测中表现优异,超越同类开源模型。
- Step-Audio在逻辑推理、创作能力等多个维度取得最佳成绩,位列行业第一。
- 阶跃的多模态模型在国内外评测中频频获奖,研发迭代频率高。
- 阶跃开源的多模态模型降低了产业接入门槛,促进了技术生态的形成。
- 中国开源力量正在崭露头角,展现出技术自信与创新能力。
❓
延伸问答
Step-Video-T2V模型的主要特点是什么?
Step-Video-T2V模型的主要特点包括支持最长204帧、540P分辨率的视频生成,采用高压缩比的Video-VAE,优化训练效率,并引入视频偏好优化算法提升生成质量。
Step-Audio模型在语音交互方面的表现如何?
Step-Audio模型在逻辑推理、创作能力等多个维度取得最佳成绩,位列行业第一,能够生成高质量的自然对话和情感表达。
这两款模型采用了什么开源协议?
这两款模型均采用MIT开源协议,允许用户自由编辑和商业应用。
Step-Video-T2V在视频生成质量评测中表现如何?
Step-Video-T2V在视频生成质量评测中表现优异,超越了同类开源模型,在指令遵循、运动平滑性等方面均表现出色。
阶跃星辰与吉利汽车的合作目的是什么?
阶跃星辰与吉利汽车的合作旨在开源多模态大模型,促进技术共享与创新,推动人工智能的普惠发展。
中国在开源大模型领域的现状如何?
中国在开源大模型领域展现出强大的技术自信与创新能力,逐渐成为全球开源力量的重要参与者。
➡️