最近出现了大量的内在动机(IM)奖励塑造方法来学习复杂和稀疏奖励的环境。我们提出了一个扩展的潜在基于奖励塑造(PBRS)方法,保留了最优策略集。同时,我们还提出了一种名为“基于潜在的内在动机”(PBIM)的方法,将IM奖励转化为基于潜在的形式,而无需改变最优策略集。在测试中,我们证明PBIM成功防止了智能体收敛到次优策略并且可以加速训练。
完成下面两步后,将自动完成登录并继续当前操作。