具有马尔可夫噪声的双时间尺度线性随机逼近的紧限定时间界

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文研究了线性二时间尺度随机逼近算法的收敛性分析,使用马尔可夫噪声得出了不同步长选择下的收敛行为。将结果应用于TDC算法,得到了比之前工作更好的收敛性样本复杂度。此结果还适用于确定各种强化学习算法的收敛行为,如带有Polyak平均的TD学习,GTD和GTD2。

🎯

关键要点

  • 研究了线性二时间尺度随机逼近算法的收敛性分析。
  • 使用马尔可夫噪声得出了不同步长选择下的收敛行为。
  • 将结果应用于TDC算法,得到了更好的收敛性样本复杂度。
  • 该结果适用于确定各种强化学习算法的收敛行为。
  • 包括带有Polyak平均的TD学习,GTD和GTD2。
➡️

继续阅读