小红花·文摘

本文介绍了机器人操控和视觉语言模型的研究进展，包括自主织物操纵算法、自动操作求解器（AMSolver）系统、ClothesNet数据集和基于物理概念的视觉语言模型（VLM）。研究表明，这些技术在机器人折叠衣物和处理语言指令的任务中显著提高了成功率和性能，展示了实际应用潜力。

SKT：将状态感知关键点轨迹与视觉-语言模型结合用于机器人服装操作

BriefGPT - AI 论文速递 ·

本文介绍了自动操作求解器（AMSolver）及其视觉与语言操作基准（VLMbench），用于处理机器人操作任务。研究提出了一种基于视觉语言感知的新方法，利用多模态大型语言模型（MLLMs）增强操作的稳定性和泛化能力，实验结果表明其在真实环境中的表现优异。此外，结合视觉和语言模型生成闭环轨迹，提升了机器人操作的精准性和成功率。

自然 VLM：利用细粒度自然语言进行支配引导的视觉操作

BriefGPT - AI 论文速递 ·