健壮的开放式口语语种识别和 CU MultiLang 数据集
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文使用Conformer架构扩展了多语言预训练模型的自监督方法,发现预训练的语音模型在编码语言的区分信息方面表现最佳。嵌入对于分类未见过的语言和不同的声学环境具有鲁棒性,无需额外训练。微调预训练的Conformer模型后,实现了类似于语言识别最先进系统的结果。模型参数比当前系统少了五倍,并通过NVIDIA NeMo工具包开源了该模型。
🎯
关键要点
- 采用Conformer架构扩展多语言预训练模型的自监督方法。
- 预训练的语音模型在编码语言的区分信息方面表现最佳。
- 嵌入对于分类未见过的语言和不同的声学环境具有显著的鲁棒性,无需额外训练。
- 在VoxLingua107数据集上微调后,模型实现了类似于当前最先进语言识别系统的结果。
- 模型参数比当前系统少了五倍,并通过NVIDIA NeMo工具包开源。
➡️