基于注意力的语音识别系统需要多少上下文?

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该文介绍了一种低维度特征表示方法,能够学习到跨话语上下文特征,并在 ASR 系统中应用。实验结果表明,相对于基线模型,该系统在 Gigaspeech 语音语料上的绝对词错误率显著降低。

🎯

关键要点

  • 提出了一种低维度特征表示方法,能够学习跨话语上下文特征。
  • 通过特殊设计的注意力池化层优化基于 Conformer-Transducer 编码器的 ASR 系统。
  • 在 1000 小时的 Gigaspeech 语音语料上进行实验。
  • 实验结果显示,相对于基线模型,绝对词错误率显著降低。
  • 绝对词错误率从 0.7% 降低到 0.5%,相对降低了 4.3% 至 3.1%。
➡️

继续阅读