随机环境中的凸 Q 学习:扩展版
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
该论文提出了一种对带有函数逼近的马尔可夫决策过程进行凸 Q 学习的形式化方法,证明了算法的收敛性,并介绍了计算速率。该方法可以推广到多种性能指标,并通过经典库存控制问题进行了实证验证。
🎯
关键要点
- 提出了一种对带有函数逼近的马尔可夫决策过程进行凸 Q 学习的形式化方法。
- 鉴定了凸松弛性质的属性。
- 提供了一种近似凸程序的直接模型无关方法。
- 证明了所提出算法的收敛性。
- 介绍了计算速率。
- 该方法可以推广到多种性能指标。
- 通过经典库存控制问题进行了实证验证。
➡️