PuzzleBench: A Comprehensive Dynamic Evaluation Framework for Large Multimodal Models in Puzzle Solving

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种名为开放式视觉拼图生成(OVPG)的动态评估框架PuzzleBench,旨在解决现有评估基准静态且易受污染的问题。该框架自动生成多样化的评估数据,包含11840个视觉问答样本,以支持大型多模态模型在视觉识别、逻辑推理和上下文理解等领域的评估。

🎯

关键要点

  • 本研究提出了一种名为开放式视觉拼图生成(OVPG)的动态评估框架PuzzleBench。
  • PuzzleBench旨在解决现有评估基准静态且易受污染的问题。
  • 该框架自动生成多样化的评估数据,包含11840个视觉问答样本。
  • PuzzleBench支持大型多模态模型在视觉识别、逻辑推理和上下文理解等领域的评估。
➡️

继续阅读