机器之心 ·

RSS 2025｜ConRFT: 真实环境下基于强化学习的VLA模型微调方法

💡 原文中文，约6300字，阅读约需15分钟。

📝

内容提要

本文提出了一种名为ConRFT的强化微调方法，旨在提升视觉-语言-动作模型（VLA）在真实环境中的表现。该方法分为离线和在线两个阶段，通过一致性策略解决数据稀缺和不一致性问题。实验结果显示，ConRFT在多个操作任务中的成功率达到96.3%，显著优于传统方法，展示了强化学习在机器人应用中的潜力。

🎯

关键要点

提出了一种名为ConRFT的强化微调方法，旨在提升视觉-语言-动作模型（VLA）在真实环境中的表现。
ConRFT方法分为离线和在线两个阶段，通过一致性策略解决数据稀缺和不一致性问题。
实验结果显示，ConRFT在多个操作任务中的成功率达到96.3%，显著优于传统方法。
VLA模型在真实世界的机器人操作任务中显示出巨大的潜力，但性能依赖于高质量人类演示数据。
传统的监督微调方法受限于人类收集数据的质量和数量，难以提供最优轨迹。
ConRFT结合了监督微调和Q-learning，利用一致性策略进行微调。
离线微调阶段使用人类专家数据提取有效策略，在线微调阶段通过人机交互进行干预。
离线阶段引入BC损失以提高策略的有效性，确保与演示数据的一致性。
在线微调阶段通过人机回路学习，允许人类操作员及时干预，确保安全探索。
在八个真实环境操作任务上的实验测试证明了ConRFT的性能超越最先进方法，展示了强化学习在机器人应用中的潜力。

❓

延伸问答

ConRFT方法的主要目标是什么？

ConRFT方法旨在提升视觉-语言-动作模型（VLA）在真实环境中的表现。

ConRFT方法是如何解决数据稀缺和不一致性问题的？

ConRFT通过离线和在线两个阶段，以及一致性策略来解决数据稀缺和不一致性问题。

ConRFT在实验中的成功率是多少？

在实验中，ConRFT的成功率达到96.3%。

ConRFT方法的离线微调阶段有什么特点？

离线微调阶段使用人类专家数据提取有效策略，并引入BC损失以提高策略的有效性。

在线微调阶段如何确保安全探索？

在线微调阶段通过人机回路学习，允许人类操作员及时干预，确保安全探索。

ConRFT方法与传统监督微调方法相比有什么优势？

ConRFT方法在成功率和样本效率上显著优于传统监督微调方法，平均成功率提高了144%。

🏷️

继续阅读

你的显卡能跑多少算子？用 55 个检查项，给 PyTorch GPU 环境做一次冒烟测试 - 曦远Code
在Windows上使用RX 6650 XT运行自编译的ROCm和PyTorch时，LLM推理加速不明显，GPU利用率低。通过Python脚本检查PyTor...
模型人人都能用，什么才是你能带走的？我的答案是一个可进化的SKILL库
文章讨论了如何将AI工作流转化为可积累、跨平台的技能资产。通过SumSec-Skills，用户可以将教AI的经验结构化并存储在Git仓库中，确保技能不受工...
OpenAI内部模型推翻了离散几何核心猜想引发争论
OpenAI的通用AI模型推翻了离散几何学中的核心猜想，证明单位距离图的数量可以超出线性增长。该模型通过125页的推理，结合不同数学领域，展示了AI在代数...
AWS上的网络弹性：从勒索软件和破坏性事件中恢复的参考方法
本文讨论了在AWS上实现网络弹性的策略，重点在于如何从勒索软件和破坏性事件中恢复。网络弹性强调在受到威胁后恢复到可信状态。文章介绍了隔离恢复环境、使用逻辑...
模型人人都能用，什么才是你能带走的？我的答案是一个可进化的Skill库
文章讨论了如何将AI工作流转化为可积累、跨平台的资产，避免因更换工具而失去之前的努力。作者强调经验结构化和版本化的重要性，提出了SumSec-Skills...
Gemini Omni视频模型发布：好像比Seedance2还差点！
谷歌发布了Gemini Omni视频生成模型，能够理解物理规律，用户可通过自然语言指令编辑视频。与传统AI工具不同，Gemini Omni支持多种素材融合...