LongProc: Benchmarking Long Context Language Models in Long Program Generation

本研究解决了现有长上下文语言模型（LCLMs）基准测试中对长上下文回忆的局限性，提出了一个新的基准LongProc，要求模型整合分散信息并进行长篇生成。研究发现，尽管所有模型声称具有超过32K的上下文窗口大小，但在长生成任务中，模型普遍存在长期一致性不足的问题，显示出当前LCLMs的重大局限性与改进潜力。

本研究提出了LongProc基准，旨在解决现有长上下文语言模型在长生成任务中的一致性不足，展示了其局限性及改进潜力。

LongProc models program 一致性生成任务语言模型长上下文