本文评估了大型语言模型(LLM)在地理位置斜对角方向判断能力上的表现,测试了GPT-3.5、GPT-4和Llama-2。结果显示,GPT-4的准确率为55.3%,表现最佳。研究探讨了LLM在空间推理和导航任务中的能力与局限性,强调了改进空间理解的潜力和必要性。
完成下面两步后,将自动完成登录并继续当前操作。