小红花·文摘 - 小红花技术领袖俱乐部

本文介绍了一种结合强化学习与视觉-语言-动作模型的微调方法ConRFT，旨在提升机器人任务的样本效率和安全性。ConRFT通过离线和在线两个阶段，利用人类示范数据和一致性策略，解决了传统方法在真实环境中的挑战，增强了智能机械臂的精准性和泛化能力。

ConRFT——Consistency Policy下RL微调VLA的方法：离线通过演示数据微调(结合Q损失和BC损失)，后在线RL微调，且引入人工干预

结构之法算法之道 ·

RSS 2025｜ConRFT: 真实环境下基于强化学习的VLA模型微调方法

RSS 2025｜ConRFT: 真实环境下基于强化学习的VLA模型微调方法

机器之心 ·

该研究解决了现有视觉-语言-动作（VLA）模型因演示数据有限和不一致而导致的微调性能不足的问题。本文提出了一种名为ConRFT的强化微调方法，结合了离线与在线微调，以一致性为基础的训练目标，显著提高了模型在现实世界操控任务中的成功率，平均成功率达到96.3%。

ConRFT：通过一致性策略强化微调VLA模型的方法

BriefGPT - AI 论文速递 ·