量子位 ·

多模态模型挑战北京杭州地铁图！o3成绩显著，但跟人类有差距

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

多模态模型在高分辨率地铁图推理中面临挑战。ReasonMap评测基准显示，尽管GPT-o3优于开源模型，但仍未达到人类水平。该基准强调空间关系和路线推理，揭示了模型在复杂图像理解中的不足，为未来优化提供了参考。

🎯

🔎

尽管GPT-o3等闭源模型在多模态推理中表现优异，但与人类的理解能力相比，仍存在显著差距。这表明，当前技术尚未完全实现对复杂图像的细粒度理解，尤其是在高分辨率地铁图的空间关系和路径推理方面。

ReasonMap作为首个专注于高分辨率交通图的评测基准，强调了多模态模型在空间推理中的真实能力。其设计不仅关注模型的准确性，还考虑了路径合理性和换乘策略，为未来的模型优化提供了重要参考。

通过对推理错误案例的细致分析，ReasonMap揭示了多模态模型在视觉理解中的薄弱环节。这为研究人员提供了明确的改进方向，未来的模型优化可以集中在提升细粒度视觉推理能力上，以更好地应对复杂的图像理解任务。

❓

ReasonMap是首个聚焦于高分辨率交通图的多模态推理评测基准，旨在评估大模型在理解图像中细粒度的结构化空间信息的能力。

经过强化学习训练的GPT-o3在多个维度上优于开源模型，但仍未达到人类水平。

多模态模型在高分辨率地铁图推理中面临视觉混淆、站点遗漏等性能瓶颈，尤其在跨线路路径规划上表现不佳。

ReasonMap评测强调高分辨率挑战、难度感知设计和多维度评估体系，关注模型回答的准确性和路径合理性。

多模态模型在细粒度视觉推理任务中存在明显差距，ReasonMap有效揭示了这些模型的不足之处。

ReasonMap通过揭示多模态模型在复杂图像理解中的薄弱环节，为未来的优化提供了明确的改进方向和实践参考。

🏷️