小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了视觉语言模型（VLMs）在多步推理任务中的不足，并提出了一种评估其视觉推理能力的框架。研究表明，显式的图像到文本转换对任务的泛化能力至关重要。

Generalizing Visual Reasoning from Simple to Hard: Can We Mitigate Modality Imbalance in Visual Language Models?

BriefGPT - AI 论文速递 ·

研究者提出了GPT4SGG框架，通过综合和区域特定的叙述来合成场景图，提高了SGG模型的性能。这项工作有望推动语言模型的视觉推理能力研究。

从整体和特定区域叙述中综合合成场景图的 GPT4SGG

BriefGPT - AI 论文速递 ·