评估大型语言模型的空间理解能力
原文中文,约500字,阅读约需1分钟。发表于: 。大型语言模型(LLMs)展现出在各种任务中的卓越能力。我们探索 LLMs 对于一种特别显著的基于实际距离的知识,即空间关系的表示。通过设计自然语言导航任务,我们评估了 LLMs(特别是 GPT-3.5-turbo,GPT-4 和 Llama2 系列模型)在表示和推理空间结构方面的能力,并将这些能力与人类在相同任务上的表现进行比较。这些任务揭示了 LLMs...
该研究探索了大型语言模型(LLMs)在表示和推理空间结构方面的能力,并将这些能力与人类在相同任务上的表现进行比较。研究发现,LLMs 在不同空间结构中的表现变异性较大,但类似于人类,它们利用对象名称作为地标来维护空间地图。在错误分析中,研究发现LLMs的错误反映了空间和非空间因素。这些发现表明,LLMs能够隐含地捕捉到空间结构的某些方面,但仍有改进空间。