小红花·文摘

李飞飞和谢赛宁的新研究探讨了多模态大模型的空间推理能力，发现这些模型在空间认知上与人类存在显著差距。研究提出了VSI-Bench基准测试，评估模型在视觉空间智能方面的表现，结果显示人类准确率为79%，而最佳模型仅为48.8%。此外，语言提示技术未能提升模型表现，反而导致下降，强调了认知地图在空间推理中的潜力。