小红花·文摘

这篇论文介绍了 GigaSpeech 2，一个为低资源语言设计的大规模、多领域、多语种的语音识别语料库，它不依赖于配对的语音和文本数据。该论文还介绍了一个自动化的数据爬取、转录和标签优化流程，以及通过修改的 Noisy Student Training 来进一步提高模型性能。实验结果证明了该语料库高质量和广泛适用性，并且相比于 Whisper large-v3 模型，基于...