本研究提出了一种名为瓦瑟斯坦策略优化(WPO)的强化学习演员-评论家算法,适用于连续动作空间,结合了确定性和经典策略梯度方法的优点,表现优异。
本研究提出了一种创新的深度强化学习训练策略,通过动作映射和可行性模型提高样本效率和收敛速度,显著提升了约束环境下连续动作空间的训练性能。
完成下面两步后,将自动完成登录并继续当前操作。