小红花·文摘

大型多模态模型（LMMs）在视觉理解和推理方面取得成功。研究发现，GPT-4V在多步图推理方面优于Gemini Pro。通过描述-编程-推理（DPR）链可以显著提高多步图推理能力。GPT-4V（DPR）代理达到了SOTA性能。