健壮的开放式口语语种识别和 CU MultiLang 数据集

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文使用Conformer架构扩展了多语言预训练模型的自监督方法,发现预训练的语音模型在编码语言的区分信息方面表现最佳。嵌入对于分类未见过的语言和不同的声学环境具有鲁棒性,无需额外训练。微调预训练的Conformer模型后,实现了类似于语言识别最先进系统的结果。模型参数比当前系统少了五倍,并通过NVIDIA NeMo工具包开源了该模型。

🎯

关键要点

  • 采用Conformer架构扩展多语言预训练模型的自监督方法。
  • 预训练的语音模型在编码语言的区分信息方面表现最佳。
  • 嵌入对于分类未见过的语言和不同的声学环境具有显著的鲁棒性,无需额外训练。
  • 在VoxLingua107数据集上微调后,模型实现了类似于当前最先进语言识别系统的结果。
  • 模型参数比当前系统少了五倍,并通过NVIDIA NeMo工具包开源。
➡️

继续阅读