Apple Machine Learning Research ·

EncQA：基于视觉编码的图表视觉语言模型基准评估

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

EncQA是一个新基准，旨在评估视觉语言模型在图表理解中的表现。它提供2076对合成问答，涵盖六种视觉编码通道和八种分析任务。研究表明，模型在不同编码和任务间的性能差异显著，单纯增加模型规模并未提升表现，需针对特定视觉推理缺口制定策略。

🎯

🔎

EncQA基准强调了不同视觉编码通道在图表理解中的关键作用。研究表明，不同编码对模型性能的影响显著，开发者在设计视觉语言模型时应重视这些编码的选择，以提高模型的理解能力。

尽管增加模型规模通常被认为能提升性能，但EncQA的研究结果显示，这一假设并不总是成立。针对特定的视觉推理缺口制定策略，可能比单纯扩大模型规模更为有效。

EncQA涵盖了八种不同的分析任务，这表明在图表理解中，模型需要具备多样化的推理能力。研究者和开发者应关注这些任务，以确保模型在实际应用中的全面性和适应性。

❓

EncQA是一个新基准，旨在系统评估视觉语言模型在图表理解中的表现。

EncQA提供2076对合成问答，涵盖六种视觉编码通道和八种分析任务。

研究发现，模型在不同编码和任务间的性能差异显著。

单纯增加模型规模并未提升表现，需针对特定视觉推理缺口制定策略。

EncQA涵盖六种视觉编码通道：位置、长度、面积、颜色定量、颜色名义和形状。

EncQA的分析任务包括找极值、检索值、找异常、过滤值、计算派生值（精确和相对）、相关值和相关值（相对）。

🏷️