mHuBERT-147:一种紧凑的多语言 HuBERT 模型
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
mHuBERT-147是第一个以90K小时的干净、开源数据训练的通用多语言HuBERT语音表示模型。它通过聚类实现了5.2倍更快的标签分配速度,并应用了新的多语言批量上采样策略。在经过3次训练迭代后,mHuBERT-147能够胜过在更多数据上训练的更大模型,并在ML-SUPERB排行榜上具有最高的性能得分。在ASR/LID任务中,mHuBERT-147始终超越XLS-R和MMS,并提供了高性能和参数效率之间的平衡。
🎯
关键要点
- mHuBERT-147是第一个以90K小时的干净、开源数据训练的通用多语言HuBERT语音表示模型。
- 通过基于faiss的聚类实现了5.2倍更快的标签分配速度。
- 应用了新的多语言批量上采样策略。
- 在只有95M个参数的情况下,经过3次训练迭代后,mHuBERT-147能够胜过在更多数据上训练的更大模型。
- 在ML-SUPERB排行榜上,mHuBERT-147在10分钟和1小时的任务中分别排名第二和第一。
- 在所有语种识别任务中,mHuBERT-147具有最高的性能得分。
- 在ASR/LID任务中,mHuBERT-147始终超越XLS-R,并与更大的MMS模型具有强竞争力。
- 研究结果表明,mHuBERT-147提供了高性能和参数效率之间的前所未有的平衡。
🏷️
标签
➡️