首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」 首次将推理战场从文本空间拓展到像素空间 研究团队首次提出「像素空间推理」范式,使视觉语言模型(VLM)能够直接与视觉信息进行对话,突破了传统文本推理的局限。该模型在多个视觉推理基准测试中表现优异,准确率超过GPT-4o,展现出小模型大能力的特点,推动了多模态理解的发展。 GPT-4o gpt 像素空间推理 多模态理解 视觉推理 视觉语言模型