本文介绍了一种改进的基于 policy gradient 的强化学习算法,通过探索参数空间、重用过去的数据和确定性行为策略等技术,提高了数据效率,降低了梯度估计的方差并避免了局部最优解。实验表明,该算法相较于标准的 policy gradient 方法,能够使用更少的系统交互来学习解决方案。
完成下面两步后,将自动完成登录并继续当前操作。