小红花·文摘

本文探讨了多语言预训练模型 wav2vec 2.0 的微调方法，以提升无监督语音识别的音素和单词识别能力。研究表明，通过在 IPA 音素转写上微调，某些语言的单词错误率可低于 20%。此外，KWS-Net 结构在关键词检测上表现优异，且在无音频情况下也能有效工作，展示了无标签语音数据在语音识别中的应用潜力。