Qifusion-Net: 面向端到端的多口音语音识别的层自适应流 / 非流模型
原文中文,约300字,阅读约需1分钟。发表于: 。通过提出一种名为 Qifusion-Net 的层自适应融合模型,我们可以在无需任何关于目标口音的先验知识的情况下,有效地识别多口音语音,并通过动态块策略实现流式解码,提取帧级声学特征,促进了精细的信息融合,实验结果表明,我们的方法在 KeSpeech 和 MagicData-RMAC 的多口音测试数据集上相对于基准模型分别降低了 22.1% 和 17.2% 的字符错误率(CER)
在大模型时代,解码的自回归特性导致延迟成为瓶颈。提出了非自回归LM融合ASR系统,利用并行化能力。在FLEURS和YouTube字幕上实现了相对WER的平均改进10.8%和3.6%。分析了LLM大小、上下文长度、词汇大小、融合方法等参数对ASR性能的影响。为大规模LM融合语音识别系统提供了有价值的见解。