💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

Hugging Face发布了mmBERT,这是一种新型多语言编码器,训练于超过3万亿个标记,涵盖1,833种语言。该模型通过渐进式训练,从60种高资源语言扩展到所有语言,显著提升了多语言理解能力,并在多个评估中超越了早期的多语言编码器,展现了高效性与覆盖率的平衡。

🎯

关键要点

  • Hugging Face发布了mmBERT,这是一种新型多语言编码器,训练于超过3万亿个标记,涵盖1,833种语言。
  • mmBERT基于ModernBERT架构,显著提升了多语言理解能力,超越了早期的XLM-R基准。
  • 该模型采用渐进式训练,从60种高资源语言扩展到所有语言,减少了掩蔽比例,从30%降至5%。
  • 渐进式语言添加方法确保了低资源语言的覆盖而不至于过拟合。
  • Hugging Face工程师Tom Aarsen表示,低资源语言在最后阶段的引入仍然显示出显著的性能提升。
  • mmBERT继承了ModernBERT的快速、内存高效的架构,支持8,192个标记的上下文。
  • 基础模型有110M非嵌入参数,尽管参数较少,但仍与更大的多语言模型相媲美。
  • mmBERT采用模型合并技术,结合了三种变体,以保持跨领域的性能。
  • 在评估中,mmBERT在GLUE和XTREME等任务中表现优异,设定了新的多语言基准。
  • mmBERT证明了多语言编码器的扩展不必以效率为代价,设定了检索、分类和跨语言任务的新基准。
➡️

继续阅读