结构之法算法之道 ·

RaC——挂衬衫且打包外卖盒：如果机器人将失败，则人类让其先回退后纠正，以减缓IL中的误差累积(让数据的增长对任务促进的效率更高)

💡 原文中文，约9900字，阅读约需24分钟。

📝

内容提要

CMU研究者提出RaC方法，通过人类干预改善机器人模仿学习，解决长时序任务中的失败问题。RaC结合恢复与纠正行为，提升机器人在复杂任务中的效率与鲁棒性，克服传统模仿学习的局限性。

🎯

🔎

RaC方法通过引入人类干预，特别是恢复与纠正行为，显著提升了机器人在复杂长时序任务中的表现。这种方法不仅解决了传统模仿学习在面对随机性和误差累积时的局限性，还为机器人学习提供了更为灵活的策略，使其能够在多变的环境中更好地适应和执行任务。

RaC强调人类干预的重要性，尤其是在恢复阶段。通过将机器人状态恢复到熟悉的分布内，操作员能够有效地减少错误累积，从而提升任务成功率。这种方法表明，适当的干预不仅能纠正错误，还能为机器人提供更多的学习机会，增强其适应能力。

与HIL-SERL等传统方法相比，RaC在数据收集上更为高效。RaC通过结合恢复和纠正片段，优化了数据的构成，使得机器人在面对复杂任务时能够更快地学习和适应。这种创新的干预策略为机器人学习提供了新的视角，挑战了以往只依赖成功案例的观点。

❓

RaC方法的主要目标是通过人类干预改善机器人模仿学习，提升机器人在长时序任务中的效率与鲁棒性。

RaC通过引入恢复与纠正行为的干预，扩展了机器人技能库，使其能够更好地应对长时序任务中的失败问题。

RaC方法中，人类干预遵循两条规则：先恢复再纠正，干预后立即终止当前回合。

RaC采用轻量级的人类参与数据收集协议，能够高效收集包含恢复和纠正片段的数据，提升数据收集效率。

RaC通过允许机器人多次重试和恢复到熟悉状态，显著提高了任务成功率，减少了累积误差的影响。

RaC方法结合了恢复与纠正行为，而HIL-SERL主要是IL和RL的结合，不带回退，干预工具不同。

🏷️