基于注意力的语音识别系统需要多少上下文?
原文中文,约300字,阅读约需1分钟。发表于: 。使用超过 30 秒的声学上下文来训练语音识别模型在文献中很少见,并且缺乏深入研究。本文通过对超长的声学和语言模型进行训练和评估的序列长度进行了研究,结果表明使用大约 80 秒的声学上下文进行训练可以相对提高 14.9% 的性能,并且与当前最先进的系统相比,通过长上下文转换器语言模型的系统组合可以得到具有竞争力的结果。
该文介绍了一种低维度特征表示方法,能够学习到跨话语上下文特征,并在 ASR 系统中应用。实验结果表明,相对于基线模型,该系统在 Gigaspeech 语音语料上的绝对词错误率显著降低。