马尔可夫链镜像下降在数据联合中的应用

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

该论文提出了一种基于在线凸优化的强化学习新框架,探讨了镜像下降及相关算法,并提出了一种新的类似于梯度下降的迭代方法。抛物线梯度强化学习法比常规TD学习更为普适。同时,还提出了一种新型的稀疏镜像下降强化学习方法,具有显著的计算优势。

🎯

关键要点

  • 该论文提出了一种基于在线凸优化的强化学习新框架。
  • 探讨了镜像下降及相关算法。
  • 提出了一种新的类似于梯度下降的迭代方法。
  • 基于不同 Bregman 散度的抛物线梯度强化学习法比常规 TD 学习更为普适。
  • 提出了一种新型的稀疏镜像下降强化学习方法,具有显著的计算优势。
➡️

继续阅读