小红花·文摘

本文研究了新型高级策略梯度方法在马尔可夫决策问题中的应用，提出了一种基于距离价值函数的Proximal Policy Optimization算法，有效解决了采样误差问题。实验结果显示，该算法在多负载条件下优于现有方法，接近最优结果。此外，探讨了强化学习在服务速率控制、网络控制优化及多类流体排队网络中的应用，提出了高效的控制策略和算法，显著提高了调度效率。