BriefGPT - AI 论文速递 ·

多模态因果推理基准：挑战视觉大型语言模型推断相似图像之间的因果联系

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

本文介绍了多模态视觉问答框架和方法，如CMCIR、CMQR和ModCR，旨在提升视觉-语言推理能力。研究表明，因果干预和上下文生成策略能显著改善模型在多模态任务中的表现，尤其是在减轻单模态偏见和增强推理能力方面。此外，新数据集MORE和基准MIRB的引入推动了该领域的发展。

🎯

❓

CMCIR框架是一种事件级别视觉问答框架，利用因果干预方法发现视觉和语言模态的因果结构，旨在实现稳健的因果感知视觉-语言问答。

CMQR框架通过显式发现时间因果结构和因果干预来减轻视觉虚假相关性，实验结果显示其在问题推理上具有鲁棒性。

ModCR方法结合文本和图像信息进行上下文推理，通过引入可学习的对齐前缀，将多视角语义对齐信息与语言和图形结合，提升了推理效果。

Causal-CoG策略通过生成上下文信息来提高视觉问答任务的准确性，实验表明其在多个基准测试中有效提升了模型性能。

MORE数据集旨在挑战多模态大型语言模型的能力，包含12,000个视觉问答实例，要求进行多跳推理并克服单模态偏见。

MIRB基准测试评估视觉语言模型在比较、分析和推理多个图像时的能力，发现开源模型在多图像推理任务中存在显著性能差距。

🏷️