ChartBench:图表中的复杂可视推理基准
原文中文,约500字,阅读约需2分钟。发表于: 。通过更复杂的视觉逻辑和引入 ChartBench 基准,准确衡量 MLLMs 在图表数据中的基本理解能力和数据可靠性,并揭示了它们的局限性,以激发研究界对 MLLMs 的图表理解能力更加关注。
最近的研究关注生成式多模态大型语言模型(MLLMs),通过引入SEED-Bench基准测试解决了MLLMs生成理解的评估问题。SEED-Bench包含19K个准确的多项选择问题,涵盖了12个评估维度,包括图像和视频模态的理解。通过评估结果揭示现有MLLMs的局限性,为未来的研究提供见解。