小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Hugging Face推出mmBERT,一种支持1800多种语言的多语言编码器

Hugging Face发布了mmBERT,这是一种新型多语言编码器,训练于超过3万亿个标记,涵盖1,833种语言。该模型通过渐进式训练,从60种高资源语言扩展到所有语言,显著提升了多语言理解能力,并在多个评估中超越了早期的多语言编码器,展现了高效性与覆盖率的平衡。

Hugging Face推出mmBERT,一种支持1800多种语言的多语言编码器

InfoQ
InfoQ · 2025-09-29T20:10:00Z

研究表明,最新的多语言编码器在无监督的文档级和句子级跨语言信息检索中表现不如早期模型,但在监督学习下可提高准确率。提出了轻量级跨语言检索算法和混合模型HYRR,优化了波兰语信息检索资源,评估了多种检索模型的性能,最终实现了长上下文文本表示模型的突破。

使用OKAPI BM25和交叉编码器集成的波兰文本检索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-06T00:00:00Z

本文探讨了多语言编码器在无监督和有监督文档检索中的表现,优化后在句子检索中提高了准确率。同时,研究揭示了单语数据训练模型的“单语过度拟合”现象,并提出了基于转换器的双编码器设计和代码混合翻译方法,以提升低资源语言的检索效率。实验结果表明,该方法在多个语言对的检索任务中表现优异。

在仅使用英语进行调整查询编码器时保持多语言质量

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-01T00:00:00Z

该文介绍了一种无监督的跨语言实体对齐方法,利用深度学习多语言编码器和机器翻译器对知识图谱文本进行编码,并考虑全局与局部对齐策略,生成排名匹配结果。实验结果表明,在跨语言实体对齐任务中,该方法在中文、日文和法文到英文对齐任务中的准确率超过了无监督和半监督类别的最新方法,与有监督方法相比,在日文到英文和法文到英文对齐任务中提高了准确率,在中文到英文对齐任务中略微降低了准确率。

无监督深度跨语言实体对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-19T00:00:00Z

通过实证分析发现,预训练的多语言编码器在无监督文档级和句子级交叉语言信息检索方面性能不如基于跨语言单词嵌入的模型。经过监督学习优化后,在句子检索中取得最高准确率,并通过局部相关性匹配和对特定领域对比微调等方法提升排名质量。同时发现基于单语数据训练的检索模型会出现“单语过度拟合”现象,与交叉语言转移的单语信息检索存在显著差异。

RAVEN:在上下文中学习的检索增强的编码 - 解码语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码