SKT:将状态感知关键点轨迹与视觉-语言模型结合用于机器人服装操作
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对机器人服装操作中对多样和可变形服装的处理挑战,提出了一种统一的方法,通过视觉-语言模型提升不同服装类别的关键点预测。研究表明,该方法显著提高了关键点检测精度和任务成功率,为机器人服装操作提供了更灵活的解决方案,并可能在家居自动化和辅助机器人领域拓展应用。
研究提出了一种新的视觉语言模型范式,提升机器人对新对象和指令的适应能力。通过RoboUniView方法,统一视图表示,解决摄像机规格和位置变化的问题。在CALVIN基准测试中,成功率从88.7%提高到96.2%。该模型在未知摄像机参数下表现出色,支持多数据集联合学习,展现出强大的适应性和灵活性。研究代码已公开。