量子位 ·

全球最大开源视频模型，现在也Created in China了，阶跃出品

💡 原文中文，约5700字，阅读约需14分钟。

📝

内容提要

阶跃星辰与吉利汽车联合开源了两款多模态大模型：Step-Video-T2V和Step-Audio。Step-Video-T2V是全球最大的开源视频生成模型，支持中英双语，能够生成高质量视频；Step-Audio是首个产品级开源语音交互模型，表现出色。两者均采用MIT协议，旨在促进技术共享与创新。

🎯

关键要点

阶跃星辰与吉利汽车联合开源了两款多模态大模型：Step-Video-T2V和Step-Audio。
Step-Video-T2V是全球最大的开源视频生成模型，支持中英双语，能够生成高质量视频。
Step-Audio是首个产品级开源语音交互模型，表现出色。
两款模型均采用MIT协议，旨在促进技术共享与创新。
Step-Video-T2V参数量达到30B，支持最长204帧、540P分辨率的视频生成。
Step-Video-T2V采用高压缩比的Video-VAE，提升训练和生成效率。
Step-Video-T2V在生成视频质量评测中表现优异，超越同类开源模型。
Step-Audio在逻辑推理、创作能力等多个维度取得最佳成绩，位列行业第一。
阶跃的多模态模型在国内外评测中频频获奖，研发迭代频率高。
阶跃开源的多模态模型降低了产业接入门槛，促进了技术生态的形成。
中国开源力量正在崭露头角，展现出技术自信与创新能力。

❓

延伸问答

Step-Video-T2V模型的主要特点是什么？

Step-Video-T2V模型的主要特点包括支持最长204帧、540P分辨率的视频生成，采用高压缩比的Video-VAE，优化训练效率，并引入视频偏好优化算法提升生成质量。

Step-Audio模型在语音交互方面的表现如何？

Step-Audio模型在逻辑推理、创作能力等多个维度取得最佳成绩，位列行业第一，能够生成高质量的自然对话和情感表达。

这两款模型采用了什么开源协议？

这两款模型均采用MIT开源协议，允许用户自由编辑和商业应用。

Step-Video-T2V在视频生成质量评测中表现如何？

Step-Video-T2V在视频生成质量评测中表现优异，超越了同类开源模型，在指令遵循、运动平滑性等方面均表现出色。

阶跃星辰与吉利汽车的合作目的是什么？

阶跃星辰与吉利汽车的合作旨在开源多模态大模型，促进技术共享与创新，推动人工智能的普惠发展。

中国在开源大模型领域的现状如何？

中国在开源大模型领域展现出强大的技术自信与创新能力，逐渐成为全球开源力量的重要参与者。

🏷️

标签

MIT协议吉利汽车多模态大模型开源阶跃星辰

➡️

继续阅读

4步出声，单卡0.24秒！Noiz AI联合港科大清华，开源音频生成大模型
Noiz AI与香港科技大学、清华大学联合推出AudioX-Turbo音频生成模型，解决了生成速度慢和控制不精确的问题。该模型通过分布匹配蒸馏技术，将生成...
[分享] 使用 Rust + TeaQL 打造的极速、极简应用：World Cup 2026 交互式 CLI 🏆
最近开源的项目“World Cup 2026 - Rust Edition”是一个高性能的命令行应用，旨在查看2026年FIFA世界杯的分组和积分榜。该项...
介绍Omnigent：一个元框架，用于组合、控制和共享您的智能代理
Databricks推出了Omnigent，一个元框架，旨在提高不同智能代理之间的互操作性。Omnigent允许用户轻松组合和控制多个代理，提供统一接口，...
89年哈工程校友，拿下全球海洋机器人领域最大单轮融资
世航智能完成超过10亿元A轮融资，成为全球海洋机器人领域最大单轮融资。公司推出的海洋具身大模型“沧穹CEORION”具备自主作业能力，成功率超过90%。世...
Ticketbay推出全球K-pop演唱会门票转售服务
Ticketbay推出全球K-pop演唱会门票转售服务，提供第三方托管交易和多语言支持，确保买家付款安全，防范假票和失联风险。若演出取消，顾客可全额退款，...
低成本复刻Fable 5的路子找到了：OrcaRouter多模型组队，性能反超
OrcaRouter推出了一种可编程路由策略，允许多个AI模型并行回答问题并自动选择最佳答案。通过智能编排，组合模型的表现超越了单一强模型，降低了成本，并...