实时互动网 ·

NVIDIA AI 发布 Canary-Qwen-2.5B：一款先进的 ASR-LLM 混合模型，在 OpenASR 排行榜上拥有 SoTA 性能

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

NVIDIA发布了Canary-Qwen-2.5B模型，词错率为5.63%，在Hugging Face OpenASR中排名第一。该模型结合了自动语音识别和语言模型，支持音频摘要和问答，适用于多个行业，具有商业和开源特性。

🎯

🔎

Canary-Qwen-2.5B模型通过将自动语音识别与语言模型结合，展现了技术上的重大创新。这种混合架构不仅提升了转录精度，还支持音频摘要和问答等多种应用，适用于企业转录服务和实时会议总结等场景，具有广泛的商业潜力。

该模型的开源特性使得开发者能够根据特定需求进行定制和扩展，促进了社区的参与和创新。通过与其他兼容的编码器和语言模型结合，开发者可以创建针对新领域或语言的特定任务模型，推动语音AI的进一步发展。

Canary-Qwen-2.5B的实时因子达到418，意味着其在处理输入音频时速度极快，适合大规模转录和实时字幕系统。这一性能优势使其在需要低延迟的应用场景中具有显著的竞争力，尤其是在医疗和法律等高要求行业。

❓

Canary-Qwen-2.5B模型的词错率为5.63%。

该模型适用于多个行业，包括医疗保健、法律和金融等。

该模型的实时因子为418，意味着它可以比实时速度快418倍处理输入音频。

该模型的训练数据集包含234,000小时的多样化英语语音。

该模型获得CC-BY许可证，具有商业和开源特性。

通过开源该模型及其训练方案，促进社区驱动的语音AI进步，开发者可以创建特定任务的混合模型。

🏷️