小红花·文摘

在大模型时代，解码的自回归特性导致延迟成为瓶颈。提出了非自回归LM融合ASR系统，利用并行化能力。在FLEURS和YouTube字幕上实现了相对WER的平均改进10.8％和3.6％。分析了LLM大小、上下文长度、词汇大小、融合方法等参数对ASR性能的影响。为大规模LM融合语音识别系统提供了有价值的见解。