Can Large Language Models Reason Over Extended Multilingual Contexts? Long-Context Evaluation Beyond Retrieval and Information Stacks
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文提出了MLRBench,一个新的多语言长上下文推理基准,旨在克服现有基准的局限性。研究表明,高资源语言与低资源语言之间存在显著差距,且大型语言模型在多语言环境中有效利用的上下文长度不足30%。
🎯
关键要点
- MLRBench是一个新的多语言长上下文推理基准,旨在克服现有基准的局限性。
- 现有基准主要基于检索中心评价,无法全面评估模型的推理能力。
- MLRBench通过评估多跳推理、聚合和认知推理等任务,揭示了高资源语言与低资源语言之间的显著差距。
- 研究表明,大型语言模型在多语言环境中有效利用的上下文长度不足30%。
➡️