极端编码器输出帧率降低:改善大规模端到端模型的计算延迟
原文中文,约300字,阅读约需1分钟。发表于: 。通过在编码器中应用多个帧压缩层,我们能够以较低的计算复杂度实现在每 2.56 秒的输入语音中生成一个编码器输出帧,而又不显著影响大规模语音搜索任务的词错误率,并相比于强大但计算代价高昂的基准模型,降低编码器和解码器延迟分别达到了 48% 和 92%。
本文介绍了将神经分割器与两次级联编码器 ASR 统一为单个模型的设计,实现了实时发出分段结束信号。通过新颖的虚拟帧注入策略,同时实现高质量的第二遍结果和低延迟。在长形字幕任务中,相对于基线 VAD,使用相同的级联编码器获得了2.4%的相对WER和140毫秒的EOS延迟增益。