增强记忆的 Conformer 模型用于改进端到端长篇音频转文字识别

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种紧凑的低维度特征表示方法,通过注意力池化层优化了ASR系统,实验结果表明在1000小时的语音语料上实现了显著降低的绝对词错误率。

🎯

关键要点

  • 提出了一种紧凑的低维度特征表示方法。
  • 该方法能够学习跨话语上下文特征。
  • 通过注意力池化层优化了基于Conformer-Transducer编码器的ASR系统。
  • 在1000小时的Gigaspeech语音语料上进行了实验。
  • 实验结果显示绝对词错误率显著降低,从0.7%降至0.5%。
  • 相对降低了4.3%至3.1%。
➡️

继续阅读