小红花·文摘

本研究提出了一种3D基础视觉语言框架，解决了多模态语言模型在机器人操作中的3D场景定位问题。通过将2D图像映射到点云并引入小型语言模型，显著提升了3D场景理解能力，实验显示任务成功率达到96.0%。