少说话，多行动：研究大型语言模型在3D具身环境中的物理常识

本研究针对大型语言模型（LLMs）在理解物理环境互动中的不足之处，提出了一种崭新的评估方法，通过在3D环境中赋予LLMs控制代理的能力来进行物理常识推理评估。研究发现，虽然前沿的多模态模型在这些任务上表现出色，但仍不及人类儿童，这表明当前LLMs在物理推理方面的能力有待提高。

大型语言模型（LLMs）与三维空间数据（3D-LLMs）的结合增强了对物理空间的理解与互动能力。本文综述了LLMs处理3D数据的方法，强调其在上下文学习、推理和空间理解方面的优势，分析了不同3D数据表示的应用，并指出未来研究需创新方法以充分发挥3D-LLMs的潜力。

三维空间数据上下文学习大型语言模型推理空间理解