本文评估了长上下文语言模型(LCLMs)的性能,发现其在复杂推理任务中的表现不佳,仅有效利用上下文的10-20%。研究提出了LOFT和BABILong基准,强调了长上下文学习的挑战与潜力,并建议改进提示策略和模型架构以提升性能。
完成下面两步后,将自动完成登录并继续当前操作。