本文介绍了一种基于对手生成网络的新方法,用于反演强化学习中的奖励和策略恢复。该方法在多种控制任务中表现优异,提升了转移学习的性能。研究探讨了逆强化学习的挑战及解决方案,提出了多种新算法,展示了在复杂任务中的有效性。
完成下面两步后,将自动完成登录并继续当前操作。