基于注意力的语音识别系统需要多少上下文?
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该文介绍了一种低维度特征表示方法,能够学习到跨话语上下文特征,并在 ASR 系统中应用。实验结果表明,相对于基线模型,该系统在 Gigaspeech 语音语料上的绝对词错误率显著降低。
🎯
关键要点
- 提出了一种低维度特征表示方法,能够学习跨话语上下文特征。
- 通过特殊设计的注意力池化层优化基于 Conformer-Transducer 编码器的 ASR 系统。
- 在 1000 小时的 Gigaspeech 语音语料上进行实验。
- 实验结果显示,相对于基线模型,绝对词错误率显著降低。
- 绝对词错误率从 0.7% 降低到 0.5%,相对降低了 4.3% 至 3.1%。
➡️