具有马尔可夫噪声的双时间尺度线性随机逼近的紧限定时间界
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文研究了线性二时间尺度随机逼近算法的收敛性分析,使用马尔可夫噪声得出了不同步长选择下的收敛行为。将结果应用于TDC算法,得到了比之前工作更好的收敛性样本复杂度。此结果还适用于确定各种强化学习算法的收敛行为,如带有Polyak平均的TD学习,GTD和GTD2。
🎯
关键要点
- 研究了线性二时间尺度随机逼近算法的收敛性分析。
- 使用马尔可夫噪声得出了不同步长选择下的收敛行为。
- 将结果应用于TDC算法,得到了更好的收敛性样本复杂度。
- 该结果适用于确定各种强化学习算法的收敛行为。
- 包括带有Polyak平均的TD学习,GTD和GTD2。
➡️