Interspeech2024|基于离散语音单元的流式解码器语音识别

Interspeech2024|基于离散语音单元的流式解码器语音识别

💡 原文中文,约6700字,阅读约需16分钟。
📝

内容提要

研究提出了流式语音识别的“decoder-only”模型,使用适配器和边界令牌来提升模型性能。实验结果表明,该模型在中文语音识别任务中取得了较好的性能。

🎯

关键要点

  • 研究提出了流式语音识别的“decoder-only”模型,旨在提升实时性能。
  • 现有的统一语音-文本模型在解码过程中需要整条语音,难以满足实时需求。
  • 论文介绍了引入适配器和边界令牌的流式识别模型,使用因果注意力掩蔽进行训练。
  • 模型结构包括文本插入和边界插入两种方法,边界插入方法有效解耦文本和语音令牌。
  • 右块注意力机制被集成以增强上下文建模能力,改善流式ASR模型的性能。
  • 实验使用中文开源数据集,结果显示BTI方法在CER上表现优越,且适应性更好。
  • 流式模型在大规模数据上训练时,能够有效提升ASR性能,未来有潜力超越传统模型。
➡️

继续阅读