马尔可夫链镜像下降在数据联合中的应用
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
该论文提出了一种基于在线凸优化的强化学习新框架,探讨了镜像下降及相关算法,并提出了一种新的类似于梯度下降的迭代方法。抛物线梯度强化学习法比常规TD学习更为普适。同时,还提出了一种新型的稀疏镜像下降强化学习方法,具有显著的计算优势。
🎯
关键要点
- 该论文提出了一种基于在线凸优化的强化学习新框架。
- 探讨了镜像下降及相关算法。
- 提出了一种新的类似于梯度下降的迭代方法。
- 基于不同 Bregman 散度的抛物线梯度强化学习法比常规 TD 学习更为普适。
- 提出了一种新型的稀疏镜像下降强化学习方法,具有显著的计算优势。
➡️