线性时间复杂度的流式语音识别摘要混合变换器
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对自动语音识别(ASR)在流式和非流式场景中引发的计算复杂度问题提出了解决方案。通过将摘要混合方法扩展到流式语音识别的变换器中,首次实现了线性时间复杂度并保持或超越了自注意力模型的准确性。研究表明,这种新方法在训练和解码时计算和内存需求更低,潜在地促进了ASR在受限设备上的应用。
本研究提出了一种基于Transformer的流式ASR系统,适用于更广泛的ASR场景。在测试数据上,词错误率分别为2.8%和7.2%,是目前最好的流式端到端ASR成果。