小红花·文摘

本文探讨了RLDG（通过强化学习实现机器人通用策略蒸馏），强调其在生成高质量训练数据方面的优势。RLDG结合强化学习与基础模型的泛化能力，能够在复杂任务中超越人类示范，尤其在精确操作中表现出色。实验结果显示，RLDG策略在新场景中的成功率显著高于传统方法，展现了其在机器人操作中的潜力。