Qifusion-Net: 面向端到端的多口音语音识别的层自适应流 / 非流模型
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
在大模型时代,解码的自回归特性导致延迟成为瓶颈。提出了非自回归LM融合ASR系统,利用并行化能力。在FLEURS和YouTube字幕上实现了相对WER的平均改进10.8%和3.6%。分析了LLM大小、上下文长度、词汇大小、融合方法等参数对ASR性能的影响。为大规模LM融合语音识别系统提供了有价值的见解。
🎯
关键要点
- 在大模型时代,自回归特性导致延迟成为瓶颈。
- 提出了非自回归LM融合ASR系统,利用并行化能力。
- 在FLEURS和YouTube字幕上实现了相对WER的平均改进10.8%和3.6%。
- 分析了LLM大小、上下文长度、词汇大小、融合方法等参数对ASR性能的影响。
- 研究为大规模LM融合语音识别系统提供了有价值的见解。
🏷️
标签
➡️