具备 3D 理解的语言 - 图像模型
原文中文,约400字,阅读约需1分钟。发表于: 。通过扩展多模态大语言模型 (MLLMs) 的感知能力以在三维空间中对图像进行定位和推理,本研究引入了一个名为 Cube-LLM 的新 MLLM,并在 LV3D 数据集上进行预训练,实验表明 Cube-LLM 在整体 MLLM 和特定领域的基准测试中均表现出色,并取得了显著的成果。
介绍了Scene-LLM,一种增强3D室内环境中具有交互能力的智能体的3D视觉语言模型。该模型整合了大型语言模型(LLM)的推理能力,采用混合的3D视觉特征表示方法,并支持场景状态更新。实验证明了Scene-LLM在密集字幕生成、问题回答和交互规划方面的强大能力。