无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成
💡
原文中文,约2500字,阅读约需6分钟。
📝
内容提要
北大/通研院提出了新的基准数据集LooGLE,用于评估大语言模型对长文本的理解能力。数据集包含近800个超长文档,构建了6千个不同领域和类别的任务/问题。评估结果显示商业模型和开源模型在复杂的长依赖任务中准确率不高。LooGLE为长上下文LLMs提供了全面评估,为未来增强型模型的开发提供了启示。
🎯
关键要点
- 北大和通研院提出了新的基准数据集LooGLE,用于评估大语言模型对长文本的理解能力。
- LooGLE数据集包含近800个超长文档,构建了6000个不同领域和类别的任务/问题。
- 评估结果显示商业模型和开源模型在复杂的长依赖任务中准确率不高,商业模型平均只有40%的准确率,开源模型更低,仅10%。
- LooGLE基准测试包含7个主要任务类别,设计了5种类型的长期依赖任务,包括理解与推理、计算、时间线重新排序、多重信息检索和摘要。
- LooGLE数据集仅包含2022年之后发布的文本,避免了预训练阶段的数据泄露。
- 实验分析显示商业模型显著优于开源模型,LLMs在短依赖任务表现出色,但在复杂的长依赖任务中表现不佳。
- LooGLE为未来开发增强型模型以实现真正的长上下文理解提供了启示。
➡️