线性时间复杂度的流式语音识别摘要混合变换器

本研究针对自动语音识别（ASR）在流式和非流式场景中引发的计算复杂度问题提出了解决方案。通过将摘要混合方法扩展到流式语音识别的变换器中，首次实现了线性时间复杂度并保持或超越了自注意力模型的准确性。研究表明，这种新方法在训练和解码时计算和内存需求更低，潜在地促进了ASR在受限设备上的应用。

本研究提出了一种基于Transformer的流式ASR系统，适用于更广泛的ASR场景。在测试数据上，词错误率分别为2.8%和7.2%，是目前最好的流式端到端ASR成果。