外部奖励的软 Q 模仿学习和判别器

原文约200字,阅读约需1分钟。发表于:

利用鉴别器的软 Q 模仿学习算法(DSQIL)结合通过对抗逆强化学习的奖励函数,对小规模样本数据进行高效、鲁棒的模仿学习与训练。

本文提出了一种混合的模仿学习方法,将行为克隆和逆向加权作为策略和奖励模型,结合无限制行为克隆技术和正则化方法,以克服使用诱导式奖励和对策略学习的困难。该方法简单灵活,学习稳定,超参数调整最小化。

相关推荐 去reddit讨论