该论文介绍了DSR,即在深度强化学习框架中推广SR,通过奖励预测和继任者映射的分解提高了对远程奖励变化的灵敏度,并能够从继任者地图中提取瓶颈状态。该方法在网格世界和Doom游戏引擎中展示了有效性。
完成下面两步后,将自动完成登录并继续当前操作。