小红花·文摘

本文重新审视了对抗性逆向强化学习（AIRL）中的策略模仿和可转移奖励恢复，提出用软演员-评论家（SAC）算法替代AIRL，以提高样本效率。尽管策略模仿有所改善，但可转移奖励恢复受到影响。为此，提出了混合框架PPO-AIRL + SAC，并从代数理论分析了环境提取奖励的能力。