研究团队首次提出「像素空间推理」范式,使视觉语言模型(VLM)能够直接与视觉信息进行对话,突破了传统文本推理的局限。该模型在多个视觉推理基准测试中表现优异,准确率超过GPT-4o,展现出小模型大能力的特点,推动了多模态理解的发展。
完成下面两步后,将自动完成登录并继续当前操作。