通过意外记忆激发内在动机

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文提出了一种新的计算模型,通过内存网络的检索错误来估计惊喜的新颖性,并通过惊喜记忆(SM)增加基于惊喜的内在动机的能力。实验结果表明,SM在稀疏奖励环境中表现出高效的探索行为,并显著提升了最终性能。

🎯

关键要点

  • 提出了一种新的计算模型,用于强化学习中的内在奖励。
  • 该模型解决了现有基于惊喜驱动的探索的局限性。
  • 奖励是惊喜的新颖性,而不是惊喜的规范。
  • 通过内存网络的检索错误来估计惊喜的新颖性。
  • 内存存储和重构惊喜。
  • 惊喜记忆(SM)增加了基于惊喜的内在动机的能力。
  • 保持对激动人心的探索的兴趣,减少对不可预测或嘈杂观察的不必要吸引力。
  • 实验表明,结合各种惊喜预测器的SM表现出高效的探索行为。
  • SM显著提升了稀疏奖励环境中的最终性能,包括嘈杂的电视、导航和具有挑战性的Atari游戏。
➡️

继续阅读