Enhancing Compositional Reasoning in Vision-Language Models with Synthetic Preference Data

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种新方法SCRAMBLe,旨在提升多模态大语言模型(MLLMs)的组合推理能力。通过训练模型区分正确与错误的图像标题,该方法在多个视觉语言基准测试中显著提高了性能,并对一般问题回答任务产生了积极影响。

🎯

关键要点

  • 本研究提出了一种新方法SCRAMBLe,旨在提升多模态大语言模型(MLLMs)的组合推理能力。
  • SCRAMBLe通过训练模型区分正确与错误的图像标题,显著提高了模型的组合推理能力。
  • 该方法在多个视觉语言基准测试中表现出显著的性能提升。
  • SCRAMBLe对一般问题回答任务也产生了积极影响。
➡️

继续阅读