小红花·文摘

本研究提出了一种改进的策略镜像上升算法（SPMA），有效解决了自然策略梯度方法在大规模状态-动作空间中收敛速度慢的问题。SPMA无需对动作进行规范化，能够快速接近最优值函数，并在多个基准测试中表现出色。