ConRFT:通过一致性策略强化微调VLA模型的方法

📝

内容提要

该研究解决了现有视觉-语言-动作(VLA)模型因演示数据有限和不一致而导致的微调性能不足的问题。本文提出了一种名为ConRFT的强化微调方法,结合了离线与在线微调,以一致性为基础的训练目标,显著提高了模型在现实世界操控任务中的成功率,平均成功率达到96.3%。

➡️

继续阅读