多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格

💡 原文中文,约4600字,阅读约需11分钟。
📝

内容提要

LongDocURL是一个新基准,评估多模态长文档理解能力,涵盖理解、推理和定位等20个任务。GPT-4o得分64.5,仅刚及格,显示出当前模型在处理复杂文档时的挑战。该基准强调长文档的结构解析,推动文档理解的发展。

🎯

关键要点

  • LongDocURL是一个新基准,评估多模态长文档理解能力,涵盖理解、推理和定位等20个任务。
  • GPT-4o得分64.5,仅刚及格,显示出当前模型在处理复杂文档时的挑战。
  • LongDocURL专注于篇幅在50~150页的英文文档,平均页数为85.6,文档标记数为43622.6。
  • 该基准强调长文档的结构解析,推动文档理解的发展。
  • 团队定义了三个主任务类别:理解、数值推理和跨元素定位。
  • 现有文档理解基准存在局限性,未能全面评估复杂元素和长上下文。
  • LongDocURL通过半自动化流程构建评估数据集,最终生成了2325个问答对。
  • 实验结果显示,闭源模型在整体性能上优于开源模型,GPT-4o是唯一及格的模型。
  • 模型在文本问题上的得分最高,在表格问题上的得分最低,显示出文档结构解析的不足。
  • 输入方式的选择对模型性能有显著影响,使用Docmind解析的性能优于PyMuPDF解析。

延伸问答

LongDocURL基准的主要任务类别有哪些?

LongDocURL基准的主要任务类别包括理解、数值推理和跨元素定位。

GPT-4o在LongDocURL基准上的表现如何?

GPT-4o在LongDocURL基准上得分64.5,仅刚及格,显示出处理复杂文档的挑战。

LongDocURL基准如何构建评估数据集?

LongDocURL基准通过半自动化流程构建评估数据集,最终生成了2325个问答对。

LongDocURL基准的文档长度范围是什么?

LongDocURL基准专注于篇幅在50到150页的英文文档。

LongDocURL基准与现有文档理解基准相比有什么优势?

LongDocURL基准能够全面评估复杂元素和长上下文,克服了现有基准的局限性。

输入方式对模型性能的影响是什么?

使用Docmind解析的性能优于PyMuPDF解析,表明输入方式显著影响模型性能。

➡️

继续阅读