评估大型语言模型的空间理解能力

大型语言模型（LLMs）展现出在各种任务中的卓越能力。我们探索 LLMs 对于一种特别显著的基于实际距离的知识，即空间关系的表示。通过设计自然语言导航任务，我们评估了 LLMs（特别是 GPT-3.5-turbo，GPT-4 和 Llama2 系列模型）在表示和推理空间结构方面的能力，并将这些能力与人类在相同任务上的表现进行比较。这些任务揭示了 LLMs...

该研究探索了大型语言模型（LLMs）在表示和推理空间结构方面的能力，并将这些能力与人类在相同任务上的表现进行比较。研究发现，LLMs 在不同空间结构中的表现变异性较大，但类似于人类，它们利用对象名称作为地标来维护空间地图。在错误分析中，研究发现LLMs的错误反映了空间和非空间因素。这些发现表明，LLMs能够隐含地捕捉到空间结构的某些方面，但仍有改进空间。

地标大型语言模型对象名称空间结构错误分析