RSS 2025|ConRFT: 真实环境下基于强化学习的VLA模型微调方法

RSS 2025|ConRFT: 真实环境下基于强化学习的VLA模型微调方法

💡 原文中文,约6300字,阅读约需15分钟。
📝

内容提要

本文提出了一种名为ConRFT的强化微调方法,旨在提升视觉-语言-动作模型(VLA)在真实环境中的表现。该方法分为离线和在线两个阶段,通过一致性策略解决数据稀缺和不一致性问题。实验结果显示,ConRFT在多个操作任务中的成功率达到96.3%,显著优于传统方法,展示了强化学习在机器人应用中的潜力。

🎯

关键要点

  • 提出了一种名为ConRFT的强化微调方法,旨在提升视觉-语言-动作模型(VLA)在真实环境中的表现。
  • ConRFT方法分为离线和在线两个阶段,通过一致性策略解决数据稀缺和不一致性问题。
  • 实验结果显示,ConRFT在多个操作任务中的成功率达到96.3%,显著优于传统方法。
  • VLA模型在真实世界的机器人操作任务中显示出巨大的潜力,但性能依赖于高质量人类演示数据。
  • 传统的监督微调方法受限于人类收集数据的质量和数量,难以提供最优轨迹。
  • ConRFT结合了监督微调和Q-learning,利用一致性策略进行微调。
  • 离线微调阶段使用人类专家数据提取有效策略,在线微调阶段通过人机交互进行干预。
  • 离线阶段引入BC损失以提高策略的有效性,确保与演示数据的一致性。
  • 在线微调阶段通过人机回路学习,允许人类操作员及时干预,确保安全探索。
  • 在八个真实环境操作任务上的实验测试证明了ConRFT的性能超越最先进方法,展示了强化学习在机器人应用中的潜力。

延伸问答

ConRFT方法的主要目标是什么?

ConRFT方法旨在提升视觉-语言-动作模型(VLA)在真实环境中的表现。

ConRFT方法是如何解决数据稀缺和不一致性问题的?

ConRFT通过离线和在线两个阶段,以及一致性策略来解决数据稀缺和不一致性问题。

ConRFT在实验中的成功率是多少?

在实验中,ConRFT的成功率达到96.3%。

ConRFT方法的离线微调阶段有什么特点?

离线微调阶段使用人类专家数据提取有效策略,并引入BC损失以提高策略的有效性。

在线微调阶段如何确保安全探索?

在线微调阶段通过人机回路学习,允许人类操作员及时干预,确保安全探索。

ConRFT方法与传统监督微调方法相比有什么优势?

ConRFT方法在成功率和样本效率上显著优于传统监督微调方法,平均成功率提高了144%。

➡️

继续阅读