AfriHuBERT: A Self-Supervised Speech Representation Model for African Languages
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究介绍了AfriHuBERT模型,通过在6500小时语音数据上继续预训练,将支持的非洲语言从16种扩展到39种。结果显示,该模型在语言识别和自动语音识别任务中表现更佳,并指出现有评估基准对低资源非洲语言的数据质量需改进。
🎯
关键要点
- 本研究提出了AfriHuBERT模型,基于mHuBERT-147的自监督学习模型。
- 通过在6500小时的语音数据上继续预训练,AfriHuBERT将支持的非洲语言数量从16种扩展到39种。
- 研究结果显示,AfriHuBERT在语言识别和自动语音识别任务中的表现有所提升。
- 现有评估基准对于低资源非洲语言的数据质量存在限制,亟需改进。
➡️