mHuBERT-147:一种紧凑的多语言 HuBERT 模型

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

mHuBERT-147是第一个以90K小时的干净、开源数据训练的通用多语言HuBERT语音表示模型。它通过聚类实现了5.2倍更快的标签分配速度,并应用了新的多语言批量上采样策略。在经过3次训练迭代后,mHuBERT-147能够胜过在更多数据上训练的更大模型,并在ML-SUPERB排行榜上具有最高的性能得分。在ASR/LID任务中,mHuBERT-147始终超越XLS-R和MMS,并提供了高性能和参数效率之间的平衡。

🎯

关键要点

  • mHuBERT-147是第一个以90K小时的干净、开源数据训练的通用多语言HuBERT语音表示模型。
  • 通过基于faiss的聚类实现了5.2倍更快的标签分配速度。
  • 应用了新的多语言批量上采样策略。
  • 在只有95M个参数的情况下,经过3次训练迭代后,mHuBERT-147能够胜过在更多数据上训练的更大模型。
  • 在ML-SUPERB排行榜上,mHuBERT-147在10分钟和1小时的任务中分别排名第二和第一。
  • 在所有语种识别任务中,mHuBERT-147具有最高的性能得分。
  • 在ASR/LID任务中,mHuBERT-147始终超越XLS-R,并与更大的MMS模型具有强竞争力。
  • 研究结果表明,mHuBERT-147提供了高性能和参数效率之间的前所未有的平衡。
➡️

继续阅读