多模态模型挑战北京杭州地铁图！o3成绩显著，但跟人类有差距

首个聚焦于高分辨率交通图（主要为地铁图）的多模态推理评测基准

多模态模型在高分辨率地铁图推理中面临挑战。ReasonMap评测基准显示，尽管GPT-o3优于开源模型，但仍未达到人类水平。该基准强调空间关系和路线推理，揭示了模型在复杂图像理解中的不足，为未来优化提供了参考。

ReasonMap o3 地铁图多模态模型空间关系路线推理