小红花·文摘

为Cartpole-v1实现PPO

DEV Community ·

本文从实践案例角度解读了强化学习中的梯度策略、添加基线、优势函数和动作分配合适的分数。强化学习由演员、环境和奖励函数组成，演员根据策略决定动作。策略一般记作π，可以使用深度学习网络来表示。在强化学习中，可以使用蒙特卡洛方法和时序差分方法进行策略梯度的优化。添加基线可以解决奖励总是正的问题，分配合适的分数可以对动作进行加权。最后，介绍了REINFORCE算法的实现流程。

实践讲解强化学习之梯度策略、添加基线、优势函数、动作分配合适的分数

华为云官方博客 ·