小红花·文摘

本文分析了语言模型在多文档问答和键值检索中的性能，发现信息位置对性能影响显著，且随着上下文长度增加，模型性能下降。研究表明，检索增强能提升模型表现，尤其在长上下文任务中。提出了新的基准测试和评估框架，以优化语言模型在长文本任务中的能力。