低资源自动语音识别的方言适应和数据增强:MADASR 2023 挑战中的 TalTech 系统
原文中文,约300字,阅读约需1分钟。发表于: 。通过使用 aligned data augmentation 技术增强语言多样性和 deep prefix tuning 方法进行方言适应,Tallinn University of Technology(TalTech)在 ASRU MADASR 2023 Challenge 的两个轨道中都取得了显著的改进,并实现了参与团队中最低的词错误率。
该研究提出了一种跨语言转移学习方法,使用无标签语音数据集和自我训练来提高单语言 wav2vec-2.0 模型的自动语音识别性能。经过调整后,该模型在目标语言 ASR 任务上表现类似于训练了 53 种语言的顶级多语言 XLSR 模型。