眼见不一定全是实情:多模态大语言模型因果推理能力的基准测试

基于现有多模态大型语言模型 (MLLMs) 在视觉问答评测方面的认知和推理能力,我们提出了一个新的 CFMM(Counterfactual MultiModal)基准测试,以系统评估 MLLMs 的反事实推理能力,发现现有 MLLMs 往往更加倾向于相信所见而忽视问题中提到的反事实前提,因此导致了不准确的回答,同时也表明现有 MLLMs 在逼近人类智能方面仍有较大提升空间,我们还探索了通过在未来提升 MLLMs 在 CFMM 上的表现来发展具备先进智能的 MLLMs 的潜在途径。

相关推荐 去reddit讨论