Can Large Language Models Reason Over Extended Multilingual Contexts? Long-Context Evaluation Beyond Retrieval and Information Stacks

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文提出了MLRBench,一个新的多语言长上下文推理基准,旨在克服现有基准的局限性。研究表明,高资源语言与低资源语言之间存在显著差距,且大型语言模型在多语言环境中有效利用的上下文长度不足30%。

🎯

关键要点

  • MLRBench是一个新的多语言长上下文推理基准,旨在克服现有基准的局限性。
  • 现有基准主要基于检索中心评价,无法全面评估模型的推理能力。
  • MLRBench通过评估多跳推理、聚合和认知推理等任务,揭示了高资源语言与低资源语言之间的显著差距。
  • 研究表明,大型语言模型在多语言环境中有效利用的上下文长度不足30%。
➡️

继续阅读