李飞飞和谢赛宁的新研究探讨了多模态大模型的空间推理能力,发现这些模型在空间认知上与人类存在显著差距。研究提出了VSI-Bench基准测试,评估模型在视觉空间智能方面的表现,结果显示人类准确率为79%,而最佳模型仅为48.8%。此外,语言提示技术未能提升模型表现,反而导致下降,强调了认知地图在空间推理中的潜力。
完成下面两步后,将自动完成登录并继续当前操作。