小红花·文摘

本文介绍了一种基于对手生成网络的新方法，用于反演强化学习中的奖励和策略恢复。该方法在多种控制任务中表现优异，提升了转移学习的性能。研究探讨了逆强化学习的挑战及解决方案，提出了多种新算法，展示了在复杂任务中的有效性。