CharXiv:多模式 LLM 模型中现实图表理解的不足之处的概览

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

多模态大语言模型(MLLMs)在图表理解方面存在不足。CharXiv是一个评估套件,包含2,323个自然、具有挑战性和多样化的图表。结果显示,最强专有模型(GPT-4o)的推理能力(47.1%准确率)与最强开源模型(InternVL Chat V1.5)(29.2%准确率)之间存在差距。所有模型远远落后于人类表现。CharXiv有望促进未来的MLLM图表理解研究。

🎯

关键要点

  • 多模态大语言模型(MLLMs)在图表理解方面存在不足。
  • CharXiv是一个评估套件,包含2,323个自然、具有挑战性和多样化的图表。
  • 最强专有模型(GPT-4o)的推理能力为47.1%准确率,最强开源模型(InternVL Chat V1.5)为29.2%准确率。
  • 所有模型的表现远远落后于人类的80.5%准确率。
  • CharXiv旨在提供更加真实和忠实的进展衡量,促进未来的MLLM图表理解研究。
➡️

继续阅读