Apple Machine Learning Research ·

mRAKL：面向低资源语言的多语言检索增强知识图谱构建

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

知识图谱表示现实世界的实体及其关系。多语言知识图谱构建（mKGC）旨在自动构建或预测缺失的实体和链接。本文将mKGC重构为问答任务，并引入基于检索增强生成的系统mRAKL。实验主要集中在低资源语言提格利尼亚语和阿姆哈拉语上，结果表明该方法在无上下文设置下显著提升了性能。

🎯

🔎

多语言知识图谱构建（mKGC）在全球化背景下显得尤为重要。它不仅能够帮助不同语言的用户获取信息，还能促进低资源语言的数字化发展，提升这些语言在信息技术领域的可见度和使用率。

mRAKL通过将多语言知识图谱构建转化为问答任务，利用检索增强生成的方法，显著提高了低资源语言的处理能力。这种方法的创新性在于它能够在缺乏上下文的情况下，依然实现较高的准确率，展示了其在实际应用中的潜力。

实验结果显示，理想化的检索系统对mRAKL的性能提升至关重要。提格利尼亚语和阿姆哈拉语的准确率分别提高了4.92和8.79个百分点，这表明在低资源语言处理上，优化检索机制能够带来显著的效果。

❓

多语言知识图谱构建（mKGC）是指在多语言环境中自动构建或预测知识图谱中缺失的实体和链接的任务。

mRAKL系统是基于检索增强生成的系统，用于将多语言知识图谱构建任务重构为问答任务。

实验主要集中在低资源语言提格利尼亚语和阿姆哈拉语上。

在无上下文设置下，mRAKL的性能显著提升，使用RAG基于的方法提高了准确率。

使用BM25检索器的RAG基于方法在无上下文设置下提高了性能。

mRAKL在提格利尼亚语和阿姆哈拉语的准确率分别提高了4.92和8.79个百分点。

🏷️