自监督自适应多语言语音模型的预训练用于语言和方言识别
原文中文,约400字,阅读约需1分钟。发表于: 。预训练的基于 Transformer 的语音模型在下游任务(如自动语音识别和口语语言识别)上表现出了令人瞩目的性能,但领域不匹配的问题仍然是一个挑战。为了解决这个问题,我们提出了自监督自适应预训练(SAPT)来适应下游任务的目标领域和语言。我们将 SAPT 应用于 XLSR-128 模型,并研究了该方法在 SLID 任务中的有效性。实验证明,SAPT 在 FLEURS 基准测试中提高了...
研究者提出了自监督自适应预训练(SAPT)来解决预训练语音模型领域不匹配的问题。实验证明,SAPT在FLEURS基准测试中提高了XLSR的性能,尤其是对于少数语言,增益高达40.1%。同时,在少样本学习设置中应用SAPT也提高了XLSR的样本效率。通过自监督实现持续自适应可以提升多语言语音模型的下游性能。