我们提出了SPACE基准,用于评估前沿模型的空间认知能力。该基准基于认知科学研究,考察大规模地图能力、小规模物体形状推理以及空间注意力和记忆等认知基础。结果表明,现代模型在空间智能方面的表现不及动物,且在经典动物认知测试中接近随机水平。
完成下面两步后,将自动完成登录并继续当前操作。