本研究提出了一种3D基础视觉语言框架,解决了多模态语言模型在机器人操作中的3D场景定位问题。通过将2D图像映射到点云并引入小型语言模型,显著提升了3D场景理解能力,实验显示任务成功率达到96.0%。
完成下面两步后,将自动完成登录并继续当前操作。