本研究提出了一种新的演员-评论家算法,通过在动作空间中使用两点随机梯度估计的零阶近似,解决了确定性策略梯度算法在连续系统控制中的不准确问题。实验表明,该算法性能优于现有方法。
完成下面两步后,将自动完成登录并继续当前操作。