小红花·文摘

Hugging Face推出mmBERT，一种支持1800多种语言的多语言编码器

InfoQ ·

研究表明，最新的多语言编码器在无监督的文档级和句子级跨语言信息检索中表现不如早期模型，但在监督学习下可提高准确率。提出了轻量级跨语言检索算法和混合模型HYRR，优化了波兰语信息检索资源，评估了多种检索模型的性能，最终实现了长上下文文本表示模型的突破。

使用OKAPI BM25和交叉编码器集成的波兰文本检索

BriefGPT - AI 论文速递 ·

本文探讨了多语言编码器在无监督和有监督文档检索中的表现，优化后在句子检索中提高了准确率。同时，研究揭示了单语数据训练模型的“单语过度拟合”现象，并提出了基于转换器的双编码器设计和代码混合翻译方法，以提升低资源语言的检索效率。实验结果表明，该方法在多个语言对的检索任务中表现优异。

在仅使用英语进行调整查询编码器时保持多语言质量

BriefGPT - AI 论文速递 ·

该文介绍了一种无监督的跨语言实体对齐方法，利用深度学习多语言编码器和机器翻译器对知识图谱文本进行编码，并考虑全局与局部对齐策略，生成排名匹配结果。实验结果表明，在跨语言实体对齐任务中，该方法在中文、日文和法文到英文对齐任务中的准确率超过了无监督和半监督类别的最新方法，与有监督方法相比，在日文到英文和法文到英文对齐任务中提高了准确率，在中文到英文对齐任务中略微降低了准确率。

无监督深度跨语言实体对齐

BriefGPT - AI 论文速递 ·

通过实证分析发现，预训练的多语言编码器在无监督文档级和句子级交叉语言信息检索方面性能不如基于跨语言单词嵌入的模型。经过监督学习优化后，在句子检索中取得最高准确率，并通过局部相关性匹配和对特定领域对比微调等方法提升排名质量。同时发现基于单语数据训练的检索模型会出现“单语过度拟合”现象，与交叉语言转移的单语信息检索存在显著差异。

RAVEN：在上下文中学习的检索增强的编码 - 解码语言模型

BriefGPT - AI 论文速递 ·