小红花·文摘

多模态模型在高分辨率地铁图推理中面临挑战。ReasonMap评测基准显示，尽管GPT-o3优于开源模型，但仍未达到人类水平。该基准强调空间关系和路线推理，揭示了模型在复杂图像理解中的不足，为未来优化提供了参考。