PuzzleBench: A Comprehensive Dynamic Evaluation Framework for Large Multimodal Models in Puzzle Solving
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种名为开放式视觉拼图生成(OVPG)的动态评估框架PuzzleBench,旨在解决现有评估基准静态且易受污染的问题。该框架自动生成多样化的评估数据,包含11840个视觉问答样本,以支持大型多模态模型在视觉识别、逻辑推理和上下文理解等领域的评估。
🎯
关键要点
- 本研究提出了一种名为开放式视觉拼图生成(OVPG)的动态评估框架PuzzleBench。
- PuzzleBench旨在解决现有评估基准静态且易受污染的问题。
- 该框架自动生成多样化的评估数据,包含11840个视觉问答样本。
- PuzzleBench支持大型多模态模型在视觉识别、逻辑推理和上下文理解等领域的评估。
➡️