本研究提出了一种名为苏格拉底式提问(SQ)的创新框架,旨在解决复杂视觉推理中的方法结合和高训练成本问题。该方法通过引导多模态大型语言模型关注与目标问题相关的视觉线索,显著降低幻觉现象,提高细粒度图像描述能力,在视觉推理和问答任务中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。