首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

首次将推理战场从文本空间拓展到像素空间

研究团队首次提出「像素空间推理」范式，使视觉语言模型（VLM）能够直接与视觉信息进行对话，突破了传统文本推理的局限。该模型在多个视觉推理基准测试中表现优异，准确率超过GPT-4o，展现出小模型大能力的特点，推动了多模态理解的发展。

GPT-4o gpt 像素空间推理多模态理解视觉推理视觉语言模型