本文介绍了机器人操控和视觉语言模型的研究进展,包括自主织物操纵算法、自动操作求解器(AMSolver)系统、ClothesNet数据集和基于物理概念的视觉语言模型(VLM)。研究表明,这些技术在机器人折叠衣物和处理语言指令的任务中显著提高了成功率和性能,展示了实际应用潜力。
本文介绍了自动操作求解器(AMSolver)及其视觉与语言操作基准(VLMbench),用于处理机器人操作任务。研究提出了一种基于视觉语言感知的新方法,利用多模态大型语言模型(MLLMs)增强操作的稳定性和泛化能力,实验结果表明其在真实环境中的表现优异。此外,结合视觉和语言模型生成闭环轨迹,提升了机器人操作的精准性和成功率。
完成下面两步后,将自动完成登录并继续当前操作。