小红花·文摘

该论文提出了一种对带有函数逼近的马尔可夫决策过程进行凸 Q 学习的形式化方法，证明了算法的收敛性，并介绍了计算速率。该方法可以推广到多种性能指标，并通过经典库存控制问题进行了实证验证。