本文介绍了SEILO,一种新颖的样本有效on-policy算法。它结合对抗性模仿学习和逆动力学建模,使智能体通过对手过程和行为克隆损失获得反馈。实验表明,SEILO比其他方法需要更少的环境交互即可达到专家水平。
完成下面两步后,将自动完成登录并继续当前操作。