本研究探讨了视觉语言模型(VLMs)在多步推理任务中的不足,并提出了一种评估其视觉推理能力的框架。研究表明,显式的图像到文本转换对任务的泛化能力至关重要。
研究者提出了GPT4SGG框架,通过综合和区域特定的叙述来合成场景图,提高了SGG模型的性能。这项工作有望推动语言模型的视觉推理能力研究。
完成下面两步后,将自动完成登录并继续当前操作。