量子位 ·

1小时真机RL微调成功率破95%！HIL-ResRL：即插即用的VLA“外挂”神器

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

在具身智能领域，视觉-语言-动作（VLA）模型面临模仿学习导致的误差累积问题。华为云的HIL-ResRL方法通过人机协同和残差策略，提高了机器人在真实环境中的任务成功率，实验成功率超过95%。该方法无需重训练，适用于多种工业任务，并通过触觉反馈显著提高精度，展示了快速部署的潜力。

🎯

🔎

HIL-ResRL方法通过人机协同和残差策略，显著提高了机器人在真实环境中的任务成功率。这种方法不仅避免了传统模仿学习中的误差累积问题，还能在短时间内完成在线训练，适应多种工业任务，展现出极大的灵活性和实用性。

HIL-ResRL在训练过程中引入人类操作员的实时干预，确保了机器人在探索过程中的安全性。这种人机协同的设计不仅提高了样本效率，还降低了昂贵机械设备的损坏风险，为工业应用提供了更可靠的解决方案。

通过引入多模态触觉反馈，HIL-ResRL在高精度任务中的成功率大幅提升。这种能力使得机器人能够在视觉受限的情况下，依靠触觉进行精确操作，展现了其在复杂工业环境中的广泛应用潜力。

❓

HIL-ResRL方法的主要优势在于其无需重训练，能够在1小时内实现在线训练，成功率超过95%。

HIL-ResRL通过人机协同和残差策略，结合人类操作员的实时干预，减少了模仿学习中的误差累积问题。

HIL-ResRL在抓取放置、垂直放置和高精度插头任务中表现出色，成功率显著提高，尤其在高精度任务中从50%提升至93%。

HIL-ResRL采用即插即用的设计，能够无缝集成到现有的VLA模型中，仅需1小时进行在线训练。

在人机协同中，人类操作员实时介入训练过程，确保机器人在执行任务时的安全性和有效性。

HIL-ResRL为柔性制造业提供了快速部署和适配能力，满足了多品种、小批量、短周期的生产需求。

🏷️