增强记忆的 Conformer 模型用于改进端到端长篇音频转文字识别
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种紧凑的低维度特征表示方法,通过注意力池化层优化了ASR系统,实验结果表明在1000小时的语音语料上实现了显著降低的绝对词错误率。
🎯
关键要点
- 提出了一种紧凑的低维度特征表示方法。
- 该方法能够学习跨话语上下文特征。
- 通过注意力池化层优化了基于Conformer-Transducer编码器的ASR系统。
- 在1000小时的Gigaspeech语音语料上进行了实验。
- 实验结果显示绝对词错误率显著降低,从0.7%降至0.5%。
- 相对降低了4.3%至3.1%。
➡️