复杂任务没问题但简单任务不行：揭示多模态大型语言模型的懒惰

本研究旨在解决多模态大型语言模型（MLLMs）在简单视觉问答（VQA）问题上的表现不佳。通过构建LazyBench基准，研究发现当前先进的MLLMs在面对简单问题时表现出所谓的“模型懒惰”，这种现象在更强的模型中更加明显，并且对模型的充分能力利用至关重要。研究初步探讨了链式思维（CoT）在缓解此懒惰现象的有效性。

近期，多模态大型语言模型因单模态偏见在复杂任务中出错。研究者提出因果框架分析视觉问答中的偏见，并设计因果图进行深入分析。推出包含12,000个VQA实例的MORE数据集，挑战模型的多跳推理能力。提出“分解-验证-回答”框架和微调策略以减轻偏见，实验结果为未来研究提供重要见解。

DeVA框架 MORE数据集偏见多模态语言模型大型语言模型视觉问答