机器之心 ·

小红书语音识别新突破！开源FireRedASR，中文效果新SOTA

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

AIxiv报道小红书FireRed团队发布的开源语音识别模型FireRedASR，该模型在中文普通话测试集上实现新SOTA，字错误率降低8.4%。FireRedASR包括FireRedASR-LLM和FireRedASR-AED两种结构，分别满足高精度和高效推理需求，适用于多种应用场景。

🎯

🔎

FireRedASR的发布标志着中文语音识别技术的一个重要进步。其在多种应用场景中的优异表现，尤其是在短视频和智能助手等领域，预示着未来语音交互将更加自然和高效。这为开发者提供了新的机遇，可以利用这一技术提升用户体验。

FireRedASR提供了两种不同结构的模型，分别针对高精度和高效推理需求。用户在选择时应考虑具体应用场景的需求，例如，如果对准确率要求极高，FireRedASR-LLM是更合适的选择；而在资源有限的情况下，FireRedASR-AED则提供了更好的平衡。

FireRed团队选择开源其语音识别模型，旨在促进ASR技术的广泛应用和发展。这种开放的态度不仅有助于技术的快速迭代，也为研究人员和开发者提供了宝贵的资源，推动整个语音识别领域的进步。

❓

FireRedASR在中文普通话测试集上实现了新的SOTA，字错误率降低8.4%。

FireRedASR包括FireRedASR-LLM和FireRedASR-AED两种结构，分别满足高精度和高效推理需求。

在歌词识别场景中，FireRedASR-LLM的CER实现了50.2%～66.7%的相对降低。

FireRed团队希望通过开源促进ASR的应用和端到端语音交互的发展。

FireRedASR在多种日常场景中表现优异，CER相对降低23.7%~40.0%。

FireRedASR的字错误率相对Seed-ASR降低了8.4%，表现更优。

🏷️