小红花·文摘

北大/通研院提出了新的基准数据集LooGLE，用于评估大语言模型对长文本的理解能力。数据集包含近800个超长文档，构建了6千个不同领域和类别的任务/问题。评估结果显示商业模型和开源模型在复杂的长依赖任务中准确率不高。LooGLE为长上下文LLMs提供了全面评估，为未来增强型模型的开发提供了启示。