💡
原文英文,约500词,阅读约需2分钟。
📝
内容提要
Hugging Face发布了mmBERT,这是一种新型多语言编码器,训练于超过3万亿个标记,涵盖1,833种语言。该模型通过渐进式训练,从60种高资源语言扩展到所有语言,显著提升了多语言理解能力,并在多个评估中超越了早期的多语言编码器,展现了高效性与覆盖率的平衡。
🎯
关键要点
- Hugging Face发布了mmBERT,这是一种新型多语言编码器,训练于超过3万亿个标记,涵盖1,833种语言。
- mmBERT基于ModernBERT架构,显著提升了多语言理解能力,超越了早期的XLM-R基准。
- 该模型采用渐进式训练,从60种高资源语言扩展到所有语言,减少了掩蔽比例,从30%降至5%。
- 渐进式语言添加方法确保了低资源语言的覆盖而不至于过拟合。
- Hugging Face工程师Tom Aarsen表示,低资源语言在最后阶段的引入仍然显示出显著的性能提升。
- mmBERT继承了ModernBERT的快速、内存高效的架构,支持8,192个标记的上下文。
- 基础模型有110M非嵌入参数,尽管参数较少,但仍与更大的多语言模型相媲美。
- mmBERT采用模型合并技术,结合了三种变体,以保持跨领域的性能。
- 在评估中,mmBERT在GLUE和XTREME等任务中表现优异,设定了新的多语言基准。
- mmBERT证明了多语言编码器的扩展不必以效率为代价,设定了检索、分类和跨语言任务的新基准。
➡️