小红花·文摘

本文介绍了自动操作求解器（AMSolver）及其视觉与语言操作基准（VLMbench），用于处理机器人操作任务。研究提出了一种基于视觉语言感知的新方法，利用多模态大型语言模型（MLLMs）增强操作的稳定性和泛化能力，实验结果表明其在真实环境中的表现优异。此外，结合视觉和语言模型生成闭环轨迹，提升了机器人操作的精准性和成功率。