量子位 ·

多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

LongDocURL是一个新基准，评估多模态长文档理解能力，涵盖理解、推理和定位等20个任务。GPT-4o得分64.5，仅刚及格，显示出当前模型在处理复杂文档时的挑战。该基准强调长文档的结构解析，推动文档理解的发展。

🎯

🔎

LongDocURL基准的推出，填补了现有文档理解评估的空白，特别是在处理复杂文档结构和长上下文方面。它通过细分为理解、数值推理和跨元素定位三大任务，提供了更全面的评估标准，推动了多模态文档理解的研究进展。

尽管GPT-4o在LongDocURL基准中表现为唯一及格模型，但得分仅为64.5，显示出当前模型在处理复杂文档时的局限性。特别是在表格和图形问题上的低得分，反映出文档结构解析能力的不足，提示未来改进的方向。

研究表明，输入方式的选择显著影响模型的表现。使用Docmind解析的文本输入在保留文档结构信息方面优于PyMuPDF解析，这一发现强调了在多模态文档处理中的输入格式优化的重要性。

❓

LongDocURL基准的主要任务类别包括理解、数值推理和跨元素定位。

GPT-4o在LongDocURL基准上得分64.5，仅刚及格，显示出处理复杂文档的挑战。

LongDocURL基准通过半自动化流程构建评估数据集，最终生成了2325个问答对。

LongDocURL基准专注于篇幅在50到150页的英文文档。

LongDocURL基准能够全面评估复杂元素和长上下文，克服了现有基准的局限性。

使用Docmind解析的性能优于PyMuPDF解析，表明输入方式显著影响模型性能。

🏷️