基于潜力的奖励塑造对内在动机的影响

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

最近出现了大量的内在动机(IM)奖励塑造方法来学习复杂和稀疏奖励的环境。我们提出了一个扩展的潜在基于奖励塑造(PBRS)方法,保留了最优策略集。同时,我们还提出了一种名为“基于潜在的内在动机”(PBIM)的方法,将IM奖励转化为基于潜在的形式,而无需改变最优策略集。在测试中,我们证明PBIM成功防止了智能体收敛到次优策略并且可以加速训练。

🎯

关键要点

  • 最近出现了大量的内在动机(IM)奖励塑造方法来学习复杂和稀疏奖励的环境。
  • 这些方法可能无意中改变环境中的最优策略集,导致次优行为。
  • 提出了扩展的潜在基于奖励塑造(PBRS)方法,能够在更一般的函数集合下保留最优策略集。
  • 提出了一种名为“基于潜在的内在动机”(PBIM)的方法,将IM奖励转化为基于潜在的形式。
  • PBIM方法无需改变最优策略集,成功防止智能体收敛到次优策略。
  • 在MiniGrid DoorKey和Cliff Walking环境中的测试中,PBIM可以加速训练。
➡️

继续阅读