本研究提出了一种新方法SCRAMBLe,旨在提升多模态大语言模型(MLLMs)的组合推理能力。通过训练模型区分正确与错误的图像标题,该方法在多个视觉语言基准测试中显著提高了性能,并对一般问题回答任务产生了积极影响。
完成下面两步后,将自动完成登录并继续当前操作。