多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格
💡
原文中文,约4600字,阅读约需11分钟。
📝
内容提要
LongDocURL是一个新基准,评估多模态长文档理解能力,涵盖理解、推理和定位等20个任务。GPT-4o得分64.5,仅刚及格,显示出当前模型在处理复杂文档时的挑战。该基准强调长文档的结构解析,推动文档理解的发展。
🎯
关键要点
- LongDocURL是一个新基准,评估多模态长文档理解能力,涵盖理解、推理和定位等20个任务。
- GPT-4o得分64.5,仅刚及格,显示出当前模型在处理复杂文档时的挑战。
- LongDocURL专注于篇幅在50~150页的英文文档,平均页数为85.6,文档标记数为43622.6。
- 该基准强调长文档的结构解析,推动文档理解的发展。
- 团队定义了三个主任务类别:理解、数值推理和跨元素定位。
- 现有文档理解基准存在局限性,未能全面评估复杂元素和长上下文。
- LongDocURL通过半自动化流程构建评估数据集,最终生成了2325个问答对。
- 实验结果显示,闭源模型在整体性能上优于开源模型,GPT-4o是唯一及格的模型。
- 模型在文本问题上的得分最高,在表格问题上的得分最低,显示出文档结构解析的不足。
- 输入方式的选择对模型性能有显著影响,使用Docmind解析的性能优于PyMuPDF解析。
❓
延伸问答
LongDocURL基准的主要任务类别有哪些?
LongDocURL基准的主要任务类别包括理解、数值推理和跨元素定位。
GPT-4o在LongDocURL基准上的表现如何?
GPT-4o在LongDocURL基准上得分64.5,仅刚及格,显示出处理复杂文档的挑战。
LongDocURL基准如何构建评估数据集?
LongDocURL基准通过半自动化流程构建评估数据集,最终生成了2325个问答对。
LongDocURL基准的文档长度范围是什么?
LongDocURL基准专注于篇幅在50到150页的英文文档。
LongDocURL基准与现有文档理解基准相比有什么优势?
LongDocURL基准能够全面评估复杂元素和长上下文,克服了现有基准的局限性。
输入方式对模型性能的影响是什么?
使用Docmind解析的性能优于PyMuPDF解析,表明输入方式显著影响模型性能。
➡️