小红花·文摘

本文介绍了SEILO，一种新颖的样本有效on-policy算法。它结合对抗性模仿学习和逆动力学建模，使智能体通过对手过程和行为克隆损失获得反馈。实验表明，SEILO比其他方法需要更少的环境交互即可达到专家水平。