多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距 首个聚焦于高分辨率交通图(主要为地铁图)的多模态推理评测基准 多模态模型在高分辨率地铁图推理中面临挑战。ReasonMap评测基准显示,尽管GPT-o3优于开源模型,但仍未达到人类水平。该基准强调空间关系和路线推理,揭示了模型在复杂图像理解中的不足,为未来优化提供了参考。 ReasonMap o3 地铁图 多模态模型 空间关系 路线推理