CTC 和转录器 ASR 模型的快速上下文偏见和基于 CTC 的词识别器
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该研究提出了一种轻量级字符表示的方法,用于编码精细的发音特征并执行情境偏倚。实验结果显示,该方法在不同情境偏见列表大小上相对于基线模型提高了4.62%-9.26%的识别准确率。在大规模数据集上,相对于基准模型,识别准确率提高了7.91%。在稀有单词和尾部话语的测试集上,相对识别准确率的改善分别达到了36.80%和23.40%。
🎯
关键要点
- 研究提出了一种轻量级字符表示的方法,用于编码精细的发音特征。
- 该方法提高了基于声学相似性的情境偏倚,并集成了预训练的神经语言模型。
- 在Librispeech数据集上,采用该方法的Conformer Transducer模型相对于基线模型,识别准确率提高了4.62%-9.26%。
- 在大规模内部数据集上,相对识别准确率提高了7.91%。
- 在稀有单词和尾部话语的测试集上,识别准确率的改善分别达到了36.80%和23.40%。
➡️