小红花·文摘

本研究提出了一种名为开放式视觉拼图生成（OVPG）的动态评估框架PuzzleBench，旨在解决现有评估基准静态且易受污染的问题。该框架自动生成多样化的评估数据，包含11840个视觉问答样本，以支持大型多模态模型在视觉识别、逻辑推理和上下文理解等领域的评估。