该论文提出了一种对带有函数逼近的马尔可夫决策过程进行凸 Q 学习的形式化方法,证明了算法的收敛性,并介绍了计算速率。该方法可以推广到多种性能指标,并通过经典库存控制问题进行了实证验证。
完成下面两步后,将自动完成登录并继续当前操作。