递减奖励的状态表示

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

该论文介绍了DSR,即在深度强化学习框架中推广SR,通过奖励预测和继任者映射的分解提高了对远程奖励变化的灵敏度,并能够从继任者地图中提取瓶颈状态。该方法在网格世界和Doom游戏引擎中展示了有效性。

🎯

关键要点

  • 该论文介绍了DSR,即在深度强化学习框架中推广SR。
  • 通过奖励预测和继任者映射的分解,提高了对远程奖励变化的灵敏度。
  • 能够从随机策略下训练的继任者地图中提取瓶颈状态(子目标)。
  • 该方法在网格世界和Doom游戏引擎中展示了有效性。
➡️

继续阅读