本文提出了一种无偏的动作依赖基线,以降低深度强化学习中策略梯度方法的高方差问题。该方法利用随机策略的结构,适用于长时间跨度和高维动作空间,实验表明其能加速学习,适合高维控制问题,并可扩展至部分观察和多智能体任务。
完成下面两步后,将自动完成登录并继续当前操作。