本文研究了具有延迟更新的随机逼近方案的非渐近性能。研究发现,延迟的SA更新规则能够快速收敛到固定点周围的球体,减缓了最大延迟对收敛速率的影响,并且不需要关于延迟序列的先验知识来进行步长调整。这些理论发现对TD学习、Q学习和马尔可夫采样下的随机梯度下降等算法具有有限时间效果。
完成下面两步后,将自动完成登录并继续当前操作。