InfoQ ·

Hugging Face推出mmBERT，一种支持1800多种语言的多语言编码器

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

Hugging Face发布了mmBERT，这是一种新型多语言编码器，训练于超过3万亿个标记，涵盖1,833种语言。该模型通过渐进式训练，从60种高资源语言扩展到所有语言，显著提升了多语言理解能力，并在多个评估中超越了早期的多语言编码器，展现了高效性与覆盖率的平衡。

🎯

🔎

mmBERT采用渐进式训练方法，从高资源语言逐步扩展到所有语言，这一策略有效避免了低资源语言的过拟合问题。通过在最后阶段引入低资源语言，模型仍能显著提升性能，显示出该方法在多语言模型训练中的关键作用。

mmBERT通过模型合并技术结合了多个变体，确保了在不同领域的性能表现。这种方法不仅提高了模型的灵活性，还使其在多语言任务中保持了高效性，展示了在多样化应用场景中的潜力。

尽管mmBERT涵盖了1,833种语言，但其对低资源语言的支持仍然引发关注。工程师Tom Aarsen指出，低资源语言在最后阶段的引入仍能带来显著的性能提升，表明模型在处理多样化语言时的有效性和适应性。

❓

mmBERT是一种新型多语言编码器，支持1,833种语言，训练于超过3万亿个标记。

mmBERT基于ModernBERT架构，通过渐进式训练显著提升了多语言理解能力，超越了早期的XLM-R基准。

mmBERT采用渐进式训练，从60种高资源语言扩展到所有语言，减少了掩蔽比例，从30%降至5%。

mmBERT在GLUE和XTREME等任务中表现优异，设定了新的多语言基准。

mmBERT通过渐进式语言添加方法确保低资源语言的覆盖，避免过拟合，最后阶段的引入仍显示显著性能提升。

mmBERT的基础模型有110M非嵌入参数，尽管参数较少，但仍与更大的多语言模型相媲美。

🏷️