EncQA是一个新基准,旨在评估视觉语言模型在图表理解中的表现。它提供2076对合成问答,涵盖六种视觉编码通道和八种分析任务。研究表明,模型在不同编码和任务间的性能差异显著,单纯增加模型规模并未提升表现,需针对特定视觉推理缺口制定策略。
完成下面两步后,将自动完成登录并继续当前操作。