Hugging Face推出mmBERT，一种支持1800多种语言的多语言编码器

InfoQ ·

Hugging Face推出mmBERT，一种支持1800多种语言的多语言编码器

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

Hugging Face发布了mmBERT，这是一种新型多语言编码器，训练于超过3万亿个标记，涵盖1,833种语言。该模型通过渐进式训练，从60种高资源语言扩展到所有语言，显著提升了多语言理解能力，并在多个评估中超越了早期的多语言编码器，展现了高效性与覆盖率的平衡。

🎯

关键要点

Hugging Face发布了mmBERT，这是一种新型多语言编码器，训练于超过3万亿个标记，涵盖1,833种语言。
mmBERT基于ModernBERT架构，显著提升了多语言理解能力，超越了早期的XLM-R基准。
该模型采用渐进式训练，从60种高资源语言扩展到所有语言，减少了掩蔽比例，从30%降至5%。
渐进式语言添加方法确保了低资源语言的覆盖而不至于过拟合。
Hugging Face工程师Tom Aarsen表示，低资源语言在最后阶段的引入仍然显示出显著的性能提升。
mmBERT继承了ModernBERT的快速、内存高效的架构，支持8,192个标记的上下文。
基础模型有110M非嵌入参数，尽管参数较少，但仍与更大的多语言模型相媲美。
mmBERT采用模型合并技术，结合了三种变体，以保持跨领域的性能。
在评估中，mmBERT在GLUE和XTREME等任务中表现优异，设定了新的多语言基准。
mmBERT证明了多语言编码器的扩展不必以效率为代价，设定了检索、分类和跨语言任务的新基准。

🏷️

继续阅读

择善而用
我学会了接受不完美，遇到不喜欢的事物时不再生气，而是寻找其积极面。例如，我使用一个有缺陷的倒数日app，但仍然继续使用。包容是为了自己的利益最大化。
鹅厂门口免费装龙虾，几百人排爆了！一代人有一代人的鸡蛋要领
鹅厂门口免费安装OpenClaw，吸引了众多参与者，包括程序员和学生，现场气氛热烈。OpenClaw因其便捷性和强大功能迅速走红，开发者数量激增，显示出大众对AI的热情。
那个让马斯克点赞的男人，为什么还是离开了阿里？ - 蝈蝈俊
林俊旸于3月4日辞职，标志着中国AI界的重大变革。他的离开反映了开源与商业之间的矛盾，以及技术理想与管理体制的冲突。作为Qwen的核心人物，他推动了该模型...
早报｜小米发布手机版龙虾/M5 Max跑分曝光：或登顶Mac性能榜/魏建军就魏牌海报抄袭道歉
M5 Max芯片的早期跑分显示其单核和多核性能超越前代，可能成为Mac性能之最。甲骨文因AI数据中心扩张面临现金流压力，计划裁员数千人。苹果MacBook...
打破“知识诅咒”：资深架构师在 OpenClaw 浪潮中的掉队与反思
OpenClaw项目在GitHub上受到广泛关注，非技术人士比专家更能灵活运用AI。专家因知识负担和风险顾虑而犹豫，而初学者则勇于尝试。AI的民主化使普通...
连龙虾都不会装的人，怎么会用龙虾呢?
文章讨论了在缺乏明确使用场景的情况下盲目安装AI工具（如龙虾）的问题。作者强调，工具的价值在于清晰的任务和合理的流程设计，而非单纯的安装。许多人未能识别自...

Hugging Face推出mmBERT，一种支持1800多种语言的多语言编码器

内容提要

关键要点

标签

继续阅读