小红花·文摘

本研究提出了长文境指令跟随基准（LIFBench）和评估框架（LIFEval），旨在提升大型语言模型在长文境输入中跟随指令的能力。这些工具有效评估模型在复杂长文境下的表现，并为未来模型开发提供重要见解。