本研究提出了一种改进的策略镜像上升算法(SPMA),有效解决了自然策略梯度方法在大规模状态-动作空间中收敛速度慢的问题。SPMA无需对动作进行规范化,能够快速接近最优值函数,并在多个基准测试中表现出色。
完成下面两步后,将自动完成登录并继续当前操作。