Hugging Face发布了mmBERT,这是一种新型多语言编码器,训练于超过3万亿个标记,涵盖1,833种语言。该模型通过渐进式训练,从60种高资源语言扩展到所有语言,显著提升了多语言理解能力,并在多个评估中超越了早期的多语言编码器,展现了高效性与覆盖率的平衡。
研究表明,最新的多语言编码器在无监督的文档级和句子级跨语言信息检索中表现不如早期模型,但在监督学习下可提高准确率。提出了轻量级跨语言检索算法和混合模型HYRR,优化了波兰语信息检索资源,评估了多种检索模型的性能,最终实现了长上下文文本表示模型的突破。
本文探讨了多语言编码器在无监督和有监督文档检索中的表现,优化后在句子检索中提高了准确率。同时,研究揭示了单语数据训练模型的“单语过度拟合”现象,并提出了基于转换器的双编码器设计和代码混合翻译方法,以提升低资源语言的检索效率。实验结果表明,该方法在多个语言对的检索任务中表现优异。
该文介绍了一种无监督的跨语言实体对齐方法,利用深度学习多语言编码器和机器翻译器对知识图谱文本进行编码,并考虑全局与局部对齐策略,生成排名匹配结果。实验结果表明,在跨语言实体对齐任务中,该方法在中文、日文和法文到英文对齐任务中的准确率超过了无监督和半监督类别的最新方法,与有监督方法相比,在日文到英文和法文到英文对齐任务中提高了准确率,在中文到英文对齐任务中略微降低了准确率。
通过实证分析发现,预训练的多语言编码器在无监督文档级和句子级交叉语言信息检索方面性能不如基于跨语言单词嵌入的模型。经过监督学习优化后,在句子检索中取得最高准确率,并通过局部相关性匹配和对特定领域对比微调等方法提升排名质量。同时发现基于单语数据训练的检索模型会出现“单语过度拟合”现象,与交叉语言转移的单语信息检索存在显著差异。
完成下面两步后,将自动完成登录并继续当前操作。