机器之心 ·

接力DeepSeek，阶跃星辰直接开源两款国产多模态大模型

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

阶跃星辰与吉利汽车联合开源了两款多模态大模型：视频生成模型Step-Video-T2V和语音交互模型Step-Audio。Step-Video-T2V是全球性能最佳的开源视频生成模型，具备强大的镜头运动和复杂动作生成能力；Step-Audio支持多种情感和方言，表现优异。这两款模型在开源社区引发关注，标志着中国在大模型领域的崛起。

🎯

关键要点

阶跃星辰与吉利汽车联合开源了两款多模态大模型：Step-Video-T2V和Step-Audio。
Step-Video-T2V是全球性能最佳的开源视频生成模型，具备强大的镜头运动和复杂动作生成能力。
Step-Audio支持多种情感和方言，表现优异，是行业内首款产品级开源语音交互模型。
这两款模型在开源社区引发关注，标志着中国在大模型领域的崛起。
Step-Video-T2V采用MIT许可协议，支持免费商用和修改，推动开源技术发展。
Step-Video-T2V在视频生成方面表现出色，能够实现多种镜头运动和复杂人物动作。
生成的人物形象更加逼真、生动，细节丰富，表情自然。
Step-Video-T2V的参数量达到300亿，能够生成高质量视频，信息密度高。
Step-Audio能够生成情绪、方言、语种的表达，适用于影视娱乐、社交等场景。
Step-Audio在多项评测中表现优异，成为最懂中国话的开源语音交互模型。
阶跃星辰在多模态领域领先，已发布11款大模型，获得广泛认可。
阶跃星辰的AGI路线图包括单模态到多模态的逐步发展，目标是构建更高级的模型。
新的技术方向逐渐清晰，国内开源技术将成为AI领域的重要力量。

❓

延伸问答

Step-Video-T2V模型的主要特点是什么？

Step-Video-T2V是全球性能最佳的开源视频生成模型，具备强大的镜头运动和复杂动作生成能力，参数量达到300亿，能够生成高质量视频。

Step-Audio模型在语音交互方面有什么优势？

Step-Audio支持多种情感和方言，能够生成自然的语音表达，表现优异，是行业内首款产品级开源语音交互模型。

这两款模型的开源协议是什么？

Step-Video-T2V采用MIT许可协议，支持免费商用和修改，推动开源技术发展。

阶跃星辰在多模态大模型领域的地位如何？

阶跃星辰在多模态领域领先，已发布11款大模型，获得广泛认可，标志着中国在大模型领域的崛起。

Step-Video-T2V如何提升视频生成的质量？

Step-Video-T2V通过深度压缩变分自编码器Video-VAE和3D全注意力机制的DiT，提升了训练和生成效率，确保生成视频的高质量。

这两款模型适用于哪些场景？

Step-Video-T2V适用于影视制作和创意内容生成，Step-Audio适用于社交、游戏和影视娱乐等场景。

🏷️