小红花·文摘

研究团队首次提出「像素空间推理」范式，使视觉语言模型（VLM）能够直接与视觉信息进行对话，突破了传统文本推理的局限。该模型在多个视觉推理基准测试中表现优异，准确率超过GPT-4o，展现出小模型大能力的特点，推动了多模态理解的发展。