线性时间复杂度的流式语音识别摘要混合变换器

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了一种基于Transformer的流式ASR系统,适用于更广泛的ASR场景。在测试数据上,词错误率分别为2.8%和7.2%,是目前最好的流式端到端ASR成果。

🎯

关键要点

  • 本研究提出了一种基于Transformer的流式ASR系统,适用于更广泛的ASR场景。

  • 使用自我注意力模拟时间上下文信息,基于编码器-解码器的序列到序列模型在端到端自动语音识别领域取得了先进成果。

  • 该系统可以在每个发音单词之后快速生成输出。

  • 采用时间限制的自注意力机制来实现流式语音序列建模。

  • 通过触发式关注机制优化编码器-解码器的关注机制。

  • 在LibriSpeech的测试数据上,词错误率分别为2.8%和7.2%,是目前最好的流式端到端ASR成果。

➡️

继续阅读