相信但要验证：程序化视觉语言模型评估

该研究解决了视觉语言模型（VLMs）在开放式查询中生成看似合理但错误响应的问题。提出了一种新的基准评估方法PROVE，该方法利用高保真场景图和生成的问答对来验证模型响应的有效性与真实性。研究发现，很少有VLM在有效性和真实性之间达到良好的平衡，突显了当前模型的局限性和改进空间。

近期，多模态大型语言模型（MLLM）发展迅速，但常因单模态偏见在复杂任务中出错。研究者提出因果框架分析视觉问答（VQA）中的偏见，并设计因果图进行深入分析。基于此，推出包含12,000个VQA实例的MORE数据集，挑战MLLMs的多跳推理能力。提出“分解-验证-回答”策略和微调方法以减轻偏见，实验结果为未来研究提供了重要见解。

MORE数据集偏见多模态语言模型多跳推理视觉问答语言模型