实践讲解强化学习之梯度策略、添加基线、优势函数、动作分配合适的分数
💡
原文中文,约6600字,阅读约需16分钟。
📝
内容提要
本文从实践案例角度解读了强化学习中的梯度策略、添加基线、优势函数和动作分配合适的分数。强化学习由演员、环境和奖励函数组成,演员根据策略决定动作。策略一般记作π,可以使用深度学习网络来表示。在强化学习中,可以使用蒙特卡洛方法和时序差分方法进行策略梯度的优化。添加基线可以解决奖励总是正的问题,分配合适的分数可以对动作进行加权。最后,介绍了REINFORCE算法的实现流程。
🎯
关键要点
- 强化学习由演员、环境和奖励函数组成,演员根据策略决定动作。
- 策略一般记作π,可以使用深度学习网络来表示,参数用θ表示。
- 强化学习中可以使用蒙特卡洛方法和时序差分方法进行策略梯度的优化。
- 添加基线可以解决奖励总是正的问题,分配合适的分数可以对动作进行加权。
- REINFORCE算法通过蒙特卡洛方法更新策略,计算每个步骤的未来总奖励。
- 在实现策略梯度时,可以通过添加基线和分配合适的分数来提高效果。
- 策略梯度损失的构造需要考虑实际执行的动作和对应的奖励回报。
➡️