本研究提出了一种新方法,将视觉语言模型(VLM)与模拟环境和机器人系统结合,展示了VLM在空间任务中有效处理视觉和文本数据、生成操作决策的能力,具有实际应用潜力。
该研究通过引入Sparkle框架,提升视觉语言模型在二维空间推理中的能力,显著改善了模型在空间任务中的表现。
完成下面两步后,将自动完成登录并继续当前操作。