小红花·文摘

本文评估了大型语言模型（LLM）在地理位置斜对角方向判断能力上的表现，测试了GPT-3.5、GPT-4和Llama-2。结果显示，GPT-4的准确率为55.3%，表现最佳。研究探讨了LLM在空间推理和导航任务中的能力与局限性，强调了改进空间理解的潜力和必要性。