量子位 ·

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

研究团队首次提出「像素空间推理」范式，使视觉语言模型（VLM）能够直接与视觉信息进行对话，突破了传统文本推理的局限。该模型在多个视觉推理基准测试中表现优异，准确率超过GPT-4o，展现出小模型大能力的特点，推动了多模态理解的发展。

🎯

🔎

像素空间推理的提出标志着视觉语言模型（VLM）在理解和处理视觉信息方面的重大进步。与传统依赖文本的推理方式相比，这种新范式能够直接与视觉数据互动，提升了模型对细节和空间关系的理解能力。这一转变不仅增强了模型的推理能力，也为多模态理解的未来发展奠定了基础。

研究团队针对模型在学习新能力时面临的认知惰性问题，设计了内在好奇心激励与外在正确性激励的结合方案。这种方法有效地鼓励模型探索新技能，避免了因初期失败而导致的能力退化。这一策略为未来的模型训练提供了重要的启示，强调了激励机制在学习过程中的关键作用。

Pixel-Reasoner模型仅有7B参数，却在多个视觉推理基准测试中表现优异，超越了许多更大参数的模型。这一现象表明，模型的设计和训练方法在性能提升中起到了关键作用，未来的研究可以进一步探索如何在小模型中实现更高效的推理能力。

❓

像素空间推理是一种新提出的推理范式，使视觉语言模型能够直接与视觉信息对话，突破传统文本推理的局限。

7B模型在多个视觉推理基准测试中表现优异，准确率超过GPT-4o，展现出小模型大能力的特点。

像素空间推理赋予模型视觉主动操作能力，避免信息衰减，使模型能够更好地理解空间关系与动态细节。

研究团队设计了内在好奇心激励与外在正确性激励的强化学习方案，以破解认知惰性困局，鼓励模型练习视觉操作。

像素空间推理为视觉语言模型开启了第二思维通道，使其能够更全面地理解世界的复杂性，推动多模态理解的发展。

传统视觉语言模型依赖文本token翻译视觉信息，导致关键信息丢失，无法有效处理高清图像中的细节。

🏷️