小红花·文摘

本文评估了长上下文语言模型（LCLMs）的性能，发现其在复杂推理任务中的表现不佳，仅有效利用上下文的10-20%。研究提出了LOFT和BABILong基准，强调了长上下文学习的挑战与潜力，并建议改进提示策略和模型架构以提升性能。