小红书语音识别新突破!开源FireRedASR,中文效果新SOTA

小红书语音识别新突破!开源FireRedASR,中文效果新SOTA

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

AIxiv报道小红书FireRed团队发布的开源语音识别模型FireRedASR,该模型在中文普通话测试集上实现新SOTA,字错误率降低8.4%。FireRedASR包括FireRedASR-LLM和FireRedASR-AED两种结构,分别满足高精度和高效推理需求,适用于多种应用场景。

🎯

关键要点

  • 小红书FireRed团队发布了开源语音识别模型FireRedASR,字错误率降低8.4%。
  • FireRedASR包括FireRedASR-LLM和FireRedASR-AED两种结构,分别满足高精度和高效推理需求。
  • FireRedASR在中文普通话测试集上实现了新的SOTA,表现优于Seed-ASR。
  • FireRedASR-LLM适用于对准确率要求极高的应用场景,FireRedASR-AED则平衡了准确率与推理效率。
  • FireRedASR在多种日常场景中表现优异,CER相对降低23.7%~40.0%。
  • 在歌词识别场景中,FireRedASR-LLM的CER实现了50.2%~66.7%的相对降低。
  • FireRedASR在中文方言和英语场景中也表现良好,CER显著优于此前的开源SOTA模型。
  • FireRed团队希望通过开源促进ASR的应用和端到端语音交互的发展。

延伸问答

FireRedASR模型的主要创新点是什么?

FireRedASR在中文普通话测试集上实现了新的SOTA,字错误率降低8.4%。

FireRedASR包含哪些结构?

FireRedASR包括FireRedASR-LLM和FireRedASR-AED两种结构,分别满足高精度和高效推理需求。

FireRedASR在歌词识别场景中的表现如何?

在歌词识别场景中,FireRedASR-LLM的CER实现了50.2%~66.7%的相对降低。

FireRedASR的开源目的是什么?

FireRed团队希望通过开源促进ASR的应用和端到端语音交互的发展。

FireRedASR在多种日常场景中的表现如何?

FireRedASR在多种日常场景中表现优异,CER相对降低23.7%~40.0%。

FireRedASR与Seed-ASR的比较结果如何?

FireRedASR的字错误率相对Seed-ASR降低了8.4%,表现更优。

➡️

继续阅读