通过多语言对比的语音音素预训练在任何语言中实现开放词汇关键词检测
原文中文,约300字,阅读约需1分钟。发表于: 。这篇论文介绍了一种包含 115 多种不同语系的细粒度音素转录的大规模多语言语音语料库。基于这个多语言数据集,我们提出了 CLAP-IPA,这是一种能够在语音信号和音素转录的关键词或任意短语之间进行开放词汇匹配的多语言音素语音对比嵌入模型。所提出的模型已在 97...
本论文介绍了一个包含115多种语系的大规模多语言语音语料库,其中包括细粒度音素转录。作者提出了一种名为CLAP-IPA的多语言音素语音对比嵌入模型,能够在语音信号和音素转录的关键词或短语之间进行开放词汇匹配。该模型在97种未见过的语言上进行了测试,展示了强大的跨语言泛化能力。与基于文本的模型相比,使用音素作为建模单位具有更好的跨语言泛化能力。