AfriHuBERT: A Self-Supervised Speech Representation Model for African Languages
原文英文,约100词,阅读约需1分钟。发表于: 。本研究提出了AfriHuBERT,一个基于mHuBERT-147的自监督学习模型,通过在6500小时的语音数据上继续预训练,将支持的非洲语言数量从16种扩展到39种。研究结果显示,其在语言识别和自动语音识别任务中的表现有所提升,并指出现有评估基准对于低资源非洲语言可能存在的数据质量限制,亟需改进。
本研究介绍了AfriHuBERT模型,通过在6500小时语音数据上继续预训练,将支持的非洲语言从16种扩展到39种。结果显示,该模型在语言识别和自动语音识别任务中表现更佳,并指出现有评估基准对低资源非洲语言的数据质量需改进。