ConRFT:通过一致性策略强化微调VLA模型的方法
📝
内容提要
该研究解决了现有视觉-语言-动作(VLA)模型因演示数据有限和不一致而导致的微调性能不足的问题。本文提出了一种名为ConRFT的强化微调方法,结合了离线与在线微调,以一致性为基础的训练目标,显著提高了模型在现实世界操控任务中的成功率,平均成功率达到96.3%。
➡️
该研究解决了现有视觉-语言-动作(VLA)模型因演示数据有限和不一致而导致的微调性能不足的问题。本文提出了一种名为ConRFT的强化微调方法,结合了离线与在线微调,以一致性为基础的训练目标,显著提高了模型在现实世界操控任务中的成功率,平均成功率达到96.3%。