量子位 ·

阶跃最新语音模型位列 Artificial Analysis 评测榜中国第一

💡 原文中文，约1000字，阅读约需3分钟。

📝

内容提要

阶跃语音生成模型StepAudio 2.5 TTS在全球TTS评测中排名第三，展现出自然的语音表达能力，适用于客户服务和知识分享等场景。阶跃还推出了StepAudio 2.5系列模型，涵盖语音生成、识别和实时交互，强调“有温度”的AI体验，已在多个核心场景实现商业化落地。

🎯

阶跃语音生成模型StepAudio 2.5 TTS在全球TTS评测中排名第三，是当前榜单排名最高的中国大模型。
该评测采用盲测Elo评分机制，测试覆盖客户服务、知识分享等真实应用场景，展现出更自然的语音表达能力。
阶跃近期发布了StepAudio 2.5系列模型，包括TTS、ASR和Realtime，覆盖语音生成、识别与实时交互。
StepAudio 2.5 Realtime强调“有温度、有灵魂、有态度”的实时语音交互体验，具备顶级副语言能力和千万人设自定义。
阶跃在AI语音领域进行了长期深度布局，开源原生推理语音模型Step Audio R1.1连续4个月霸榜，开源情绪风格语音编辑模型Step Audio EditX位列开源榜全球第二。
阶跃语音模型已在多个核心终端场景实现规模化商业落地，如吉利银河M9和极氪8X的语音交互能力。

🔎

阶跃的StepAudio 2.5 TTS在评测中采用盲测Elo评分机制，强调用户的真实听感体验。这表明，语音模型的成功不仅依赖于技术参数，更在于其在实际应用中的表现，尤其是在客户服务和知识分享等场景中。

阶跃推出的StepAudio 2.5系列模型涵盖了语音生成、识别和实时交互，显示出其在AI语音领域的全面布局。这种多样化的产品线使得阶跃能够满足不同用户需求，增强了其市场竞争力。

阶跃的语音模型已在吉利银河M9和极氪8X等核心场景实现商业化落地，表明其技术的成熟度和市场接受度。这些成功案例为其他企业在AI语音领域的应用提供了参考和借鉴。

❓

StepAudio 2.5 TTS在全球TTS评测中排名第三，是当前榜单排名最高的中国大模型。

StepAudio 2.5系列模型包括语音生成（TTS）、语音识别（ASR）和实时语音交互（Realtime）功能。

阶跃语音模型已在吉利银河M9和极氪8X等多个核心终端场景实现规模化商业落地。

StepAudio 2.5 Realtime强调“有温度、有灵魂、有态度”的实时语音交互体验，具备顶级副语言能力和千万人设自定义。

阶跃在AI语音领域进行了长期深度布局，开源原生推理语音模型Step Audio R1.1连续4个月霸榜，开源情绪风格语音编辑模型Step Audio EditX位列开源榜全球第二。

该评测采用盲测Elo评分机制，用户在不知道模型身份的情况下对生成的语音进行听感判断。

🏷️