VITAL——结合ResNet视觉与MLP触觉且带语义增强的适用于「电源插拔」的可泛化BC:先VLM定位、后执行在线残差RL微调的策略(MLP作为动作头)
💡
原文中文,约5600字,阅读约需14分钟。
📝
内容提要
本文介绍了VITAL策略学习框架,通过将操作任务分为到达和局部交互两个阶段,结合视觉和触觉感知,提高机器人在精细操作中的成功率和泛化能力。VITAL利用视觉-语言模型进行目标定位,并通过触觉反馈实现高精度操作,克服了模仿学习和强化学习的局限性。
🎯
关键要点
- VITAL策略学习框架将操作任务分为到达和局部交互两个阶段,结合视觉和触觉感知。
- VITAL利用视觉-语言模型进行目标定位,通过触觉反馈实现高精度操作。
- 模仿学习和强化学习各有缺点,VITAL结合两者的优势以提高泛化能力。
- VITAL的全局到达阶段通过视觉-语言模型识别目标对象,局部交互阶段则利用触觉感知进行精细操作。
- 触觉传感在操作中提供关键的力和滑移反馈,显著提高成功率。
- 自中心视觉提供一致的视角,帮助机器人在不同环境中复现操作。
- VITAL通过语义增强和视觉基础模型提升视觉多样性,增强策略的泛化能力。
- 残差强化学习用于微调策略,结合基础策略和残差偏移以提高性能。
- VITAL的设计允许在不同环境中实现零样本自适应,提升操作的灵活性和准确性。
➡️