LLMI3D：通过单张2D图像赋能大语言模型的3D感知

本研究解决了现有小型3D感知模型在逻辑推理和问答方面的不足。通过提出空间增强的局部特征挖掘、3D查询令牌信息解码和基于几何投影的3D推理等新方法，我们开发了LLMI3D模型，并构建了IG3D数据集以提升3D感知能力。实验表明，LLMI3D在性能上显著超越了现有的方法。

本文综述了大型语言模型（LLMs）与三维空间数据（3D-LLMs）的整合进展，强调了它们在处理、理解和生成3D数据方面的能力。同时，指出了LLMs在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等方面的独特优势，并强调了它们在促进空间理解和互动方面的潜力。