通过意外记忆激发内在动机
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文提出了一种新的计算模型,通过内存网络的检索错误来估计惊喜的新颖性,并通过惊喜记忆(SM)增加基于惊喜的内在动机的能力。实验结果表明,SM在稀疏奖励环境中表现出高效的探索行为,并显著提升了最终性能。
🎯
关键要点
- 提出了一种新的计算模型,用于强化学习中的内在奖励。
- 该模型解决了现有基于惊喜驱动的探索的局限性。
- 奖励是惊喜的新颖性,而不是惊喜的规范。
- 通过内存网络的检索错误来估计惊喜的新颖性。
- 内存存储和重构惊喜。
- 惊喜记忆(SM)增加了基于惊喜的内在动机的能力。
- 保持对激动人心的探索的兴趣,减少对不可预测或嘈杂观察的不必要吸引力。
- 实验表明,结合各种惊喜预测器的SM表现出高效的探索行为。
- SM显著提升了稀疏奖励环境中的最终性能,包括嘈杂的电视、导航和具有挑战性的Atari游戏。
➡️