AfriHuBERT: A Self-Supervised Speech Representation Model for African Languages

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究介绍了AfriHuBERT模型,通过在6500小时语音数据上继续预训练,将支持的非洲语言从16种扩展到39种。结果显示,该模型在语言识别和自动语音识别任务中表现更佳,并指出现有评估基准对低资源非洲语言的数据质量需改进。

🎯

关键要点

  • 本研究提出了AfriHuBERT模型,基于mHuBERT-147的自监督学习模型。
  • 通过在6500小时的语音数据上继续预训练,AfriHuBERT将支持的非洲语言数量从16种扩展到39种。
  • 研究结果显示,AfriHuBERT在语言识别和自动语音识别任务中的表现有所提升。
  • 现有评估基准对于低资源非洲语言的数据质量存在限制,亟需改进。
➡️

继续阅读