量化和减轻多模大型语言模型中的单模偏差：因果视角

近期，大型语言模型 (LLM) 的进展促进了多模态 LLM (MLLM) 的发展。虽然 MLLM 具有令人印象深刻的能力，但往往过于依赖单模态偏见（例如，语言偏见和视觉偏见），导致在复杂的多模态任务中回答错误。为了研究这个问题，我们提出了一个因果框架来解释视觉问答 (VQA) 问题中的偏见。在我们的框架中，我们设计了一个因果图来阐明 MLLMs 在 VQA...

研究人员提出了一个因果框架来解释视觉问答问题中的偏见，并设计了一个因果图来评估多模态语言模型的预测。他们还引入了一个新的数据集来挑战这些模型，并提出了两种策略来减轻单模态偏见和增强推理能力。实验结果为未来的研究提供了宝贵的见解。