💡
原文中文,约6700字,阅读约需16分钟。
📝
内容提要
研究提出了流式语音识别的“decoder-only”模型,使用适配器和边界令牌来提升模型性能。实验结果表明,该模型在中文语音识别任务中取得了较好的性能。
🎯
关键要点
- 研究提出了流式语音识别的“decoder-only”模型,旨在提升实时性能。
- 现有的统一语音-文本模型在解码过程中需要整条语音,难以满足实时需求。
- 论文介绍了引入适配器和边界令牌的流式识别模型,使用因果注意力掩蔽进行训练。
- 模型结构包括文本插入和边界插入两种方法,边界插入方法有效解耦文本和语音令牌。
- 右块注意力机制被集成以增强上下文建模能力,改善流式ASR模型的性能。
- 实验使用中文开源数据集,结果显示BTI方法在CER上表现优越,且适应性更好。
- 流式模型在大规模数据上训练时,能够有效提升ASR性能,未来有潜力超越传统模型。
➡️