本研究探讨大型语言模型(LLMs)在具身化场景中的规划能力,结合自然语言反馈与物理引擎,提升机器人控制任务的理解与执行效果。实验表明,Mind's Eye显著增强了模型的推理能力,并提出了基于物理环境的知识获取方法,改善了推理和规划表现。此外,研究分析了LLMs与三维空间数据的整合,强调其在空间理解和互动中的潜力,为未来研究提供了方向。
本文综述了大型语言模型(LLMs)与三维空间数据(3D-LLMs)的整合进展,探讨了其在3D数据处理、理解和生成中的应用,强调了在空间理解和互动方面的潜力。研究分析了多种3D数据表示及其在字幕生成、问答和空间推理等任务中的应用,并指出未来研究需创新方法以充分发挥3D-LLMs的潜力。
完成下面两步后,将自动完成登录并继续当前操作。