高效基于 Conformer 的端到端语音识别关键帧机制
原文中文,约200字,阅读约需1分钟。发表于: 。我们提出了一种使用关键帧的自注意力机制和下采样机制的方法,能够降低 Conformer 模型中自注意力机制的计算复杂度,并取得与基准模型相当或更高的性能。同时,我们的方法在模型训练和推断过程中,可以丢弃超过 60% 的无用帧,从而显著加速推断速度。
该研究提出了一种使用关键帧的自注意力机制和下采样机制的方法,能够降低Conformer模型中自注意力机制的计算复杂度,并取得与基准模型相当或更高的性能。同时,该方法可以丢弃超过60%的无用帧,从而显著加速推断速度。