小红花·文摘

本文介绍了一种改进的基于 policy gradient 的强化学习算法，通过探索参数空间、重用过去的数据和确定性行为策略等技术，提高了数据效率，降低了梯度估计的方差并避免了局部最优解。实验表明，该算法相较于标准的 policy gradient 方法，能够使用更少的系统交互来学习解决方案。