小红花·文摘

本文提出了一种新型策略搜索方法APDO，旨在优化受限马尔可夫决策过程（CMDPs）。实验结果表明，APDO在机器人运动任务中具有更高的采样效率和更快的收敛速度。此外，研究探讨了策略梯度方法在强化学习中的应用，并提出多种算法以解决CMDPs中的约束问题，确保低遗憾和约束违反界限。