随机环境中的凸 Q 学习:扩展版

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

该论文提出了一种对带有函数逼近的马尔可夫决策过程进行凸 Q 学习的形式化方法,证明了算法的收敛性,并介绍了计算速率。该方法可以推广到多种性能指标,并通过经典库存控制问题进行了实证验证。

🎯

关键要点

  • 提出了一种对带有函数逼近的马尔可夫决策过程进行凸 Q 学习的形式化方法。
  • 鉴定了凸松弛性质的属性。
  • 提供了一种近似凸程序的直接模型无关方法。
  • 证明了所提出算法的收敛性。
  • 介绍了计算速率。
  • 该方法可以推广到多种性能指标。
  • 通过经典库存控制问题进行了实证验证。
➡️

继续阅读