本文研究了在机器人任务中通过自主互动学习和半监督学习动态生成奖励函数的方法。提出的中继策略学习和Optimal Transport Reward算法显著提升了机器人在复杂任务中的表现,尤其是在厨房模拟和手术机器人领域,实验结果表明这些方法在学习稠密奖励和策略优化方面具有明显优势。
完成下面两步后,将自动完成登录并继续当前操作。