向可扩展高效的设备端 ASR 迈进:迁移学习
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
多语言预训练和迁移学习对低资源单语言ASR模型的鲁棒性有显著提升作用。使用RNNT损失进行预训练,然后通过最小词错误率损失进行微调,可以降低多国语言的词错误率。领域外预训练相比领域内预训练,提高了WERR28%。罕见词和非罕见词都有所受益,其中罕见词在领域外预训练中改善更大。
🎯
关键要点
- 多语言预训练和迁移学习显著提升低资源单语言ASR模型的鲁棒性。
- 研究了迁移学习对模型性能的影响,包括初期训练和微调过程。
- 跨数据集领域和语言的迁移学习对性能有积极影响。
- 使用RNNT损失进行预训练,随后通过最小词错误率损失进行微调,可以降低多国语言的词错误率。
- 在MLS和内部数据集中,词错误率减少率相对于单语基线分别达到36.2%和42.8%。
- 领域外预训练相比领域内预训练,WERR提高了28%。
- 罕见词和非罕见词均受益于迁移学习,罕见词在领域外预训练中改善更大。
🏷️
标签
➡️