穿线：大型语言模型能否在近百万规模的稻草堆中跟随线索？

本研究解决了大型语言模型在复杂信息检索和推理中的有效上下文利用问题。通过对17种领先的LLM进行检索实验，发现许多模型在保持多个线索的同时表现出色，但有效上下文限制却明显短于支持的上下文长度。这项工作为理解LLM性能的边界及其在实际应用中的潜力提供了新见解。

研究表明，使用检索增强的4K上下文窗口大型语言模型在长上下文任务上与微调后的16K模型相当，且计算量更小。LLaMA2-70B在多个任务中优于GPT-3.5-turbo-16k和Davinci003，生成速度更快，为检索增强的选择提供了新见解。

4K上下文 GPT-3.5 LLaMA2-70B 大型语言模型检索增强长上下文任务