阿尔伯塔大学的Richard Sutton教授团队提出了“奖励聚中”理论,通过减去奖励的平均值,使奖励以均值为中心,从而加快强化学习算法的学习速度。实验结果显示,该方法显著提升了算法性能,尤其在折现因子接近1时效果更佳。
完成下面两步后,将自动完成登录并继续当前操作。