内容提要
AIxiv报道小红书FireRed团队发布的开源语音识别模型FireRedASR,该模型在中文普通话测试集上实现新SOTA,字错误率降低8.4%。FireRedASR包括FireRedASR-LLM和FireRedASR-AED两种结构,分别满足高精度和高效推理需求,适用于多种应用场景。
关键要点
-
小红书FireRed团队发布了开源语音识别模型FireRedASR,字错误率降低8.4%。
-
FireRedASR包括FireRedASR-LLM和FireRedASR-AED两种结构,分别满足高精度和高效推理需求。
-
FireRedASR在中文普通话测试集上实现了新的SOTA,表现优于Seed-ASR。
-
FireRedASR-LLM适用于对准确率要求极高的应用场景,FireRedASR-AED则平衡了准确率与推理效率。
-
FireRedASR在多种日常场景中表现优异,CER相对降低23.7%~40.0%。
-
在歌词识别场景中,FireRedASR-LLM的CER实现了50.2%~66.7%的相对降低。
-
FireRedASR在中文方言和英语场景中也表现良好,CER显著优于此前的开源SOTA模型。
-
FireRed团队希望通过开源促进ASR的应用和端到端语音交互的发展。
延伸问答
FireRedASR模型的主要创新点是什么?
FireRedASR在中文普通话测试集上实现了新的SOTA,字错误率降低8.4%。
FireRedASR包含哪些结构?
FireRedASR包括FireRedASR-LLM和FireRedASR-AED两种结构,分别满足高精度和高效推理需求。
FireRedASR在歌词识别场景中的表现如何?
在歌词识别场景中,FireRedASR-LLM的CER实现了50.2%~66.7%的相对降低。
FireRedASR的开源目的是什么?
FireRed团队希望通过开源促进ASR的应用和端到端语音交互的发展。
FireRedASR在多种日常场景中的表现如何?
FireRedASR在多种日常场景中表现优异,CER相对降低23.7%~40.0%。
FireRedASR与Seed-ASR的比较结果如何?
FireRedASR的字错误率相对Seed-ASR降低了8.4%,表现更优。