本文重新审视了对抗性逆向强化学习(AIRL)中的策略模仿和可转移奖励恢复,提出用软演员-评论家(SAC)算法替代AIRL,以提高样本效率。尽管策略模仿有所改善,但可转移奖励恢复受到影响。为此,提出了混合框架PPO-AIRL + SAC,并从代数理论分析了环境提取奖励的能力。
完成下面两步后,将自动完成登录并继续当前操作。