一种低资源语音识别的新型自训练方法
原文中文,约300字,阅读约需1分钟。发表于: 。我们提出了一种自学习方法,用于低资源环境下的自动语音识别(ASR)。通过在小语种如旁遮普语中生成高度精确的伪标签,我们的方法在四个真实语音数据集上相对提高了 14.94% 的词错误率,并在 Common Voice 旁遮普语数据集上取得了最佳结果。
本文介绍了自我训练在端到端语音识别中的应用,使用伪标签训练深度学习模型的方法,实验证明该方法可以显著提高准确率。通过语音和语言模型生成伪标签和序列到序列模型的过滤机制,并采用新颖的集成方法提高伪标签的多样性。实验结果显示,在噪声语音环境下,自我训练的集成模型相对于只使用100小时标记数据的基准模型,字错率提高了33.9%。在清晰语音环境下,自我训练可以弥补基准模型和理想模型之间的差距,提高了至少93.8%。