小红花·文摘

本文研究了具有延迟更新的随机逼近方案的非渐近性能。研究发现，延迟的SA更新规则能够快速收敛到固定点周围的球体，减缓了最大延迟对收敛速率的影响，并且不需要关于延迟序列的先验知识来进行步长调整。这些理论发现对TD学习、Q学习和马尔可夫采样下的随机梯度下降等算法具有有限时间效果。