小红花·文摘

最近出现了大量的内在动机（IM）奖励塑造方法来学习复杂和稀疏奖励的环境。我们提出了一个扩展的潜在基于奖励塑造（PBRS）方法，保留了最优策略集。同时，我们还提出了一种名为“基于潜在的内在动机”（PBIM）的方法，将IM奖励转化为基于潜在的形式，而无需改变最优策略集。在测试中，我们证明PBIM成功防止了智能体收敛到次优策略并且可以加速训练。