通过大规模伪标签赋能低资源语言ASR
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了低资源语言ASR中标注数据不足的问题,特别是针对印地语。我们提出了一种通用框架,通过整合多种现有方法,实现了对音频转录对的评估,从而在低资源语言中实现了稳健的伪标签标注。研究表明,利用YouTube的伪标签数据增强现有训练数据显著提升了在IndicYT基准上的性能,同时没有影响域外基准的表现,彰显了伪标签数据在提升低资源语言ASR能力中的有效性。
本文介绍了一种通过利用目标语言中大型文本语料库中存在但基线模型中缺失的单词一元计数来改进基线语言模型的方法,以提高低资源语言中的语音识别准确性。实验证明,该方法在泰卢固语和卡纳达语中分别获得了21.8%和41.8%的相对词错误率降低,且仅消耗1/8的内存。该方法适用于语音数据和计算资源不足的低资源条件下训练语音识别系统,并且目标语言中有大型文本语料库的情况。