多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

首个聚焦于高分辨率交通图(主要为地铁图)的多模态推理评测基准

多模态模型在高分辨率地铁图推理中面临挑战。ReasonMap评测基准显示,尽管GPT-o3优于开源模型,但仍未达到人类水平。该基准强调空间关系和路线推理,揭示了模型在复杂图像理解中的不足,为未来优化提供了参考。

原文中文,约2100字,阅读约需5分钟。发表于:
阅读原文