q-指数族在策略优化中的应用
该文章介绍了一种通过对期望Q值进行高斯平滑处理的方法来学习行动价值概念,并从平滑后的Q值函数中恢复期望奖励关于高斯策略参数的梯度。通过这种方法,可以通过惩罚先前策略的KL散度来改进鞭策优化的效果。该方法在连续控制基准测试中取得了显著的改进。
原文中文,约200字,阅读约需1分钟。
该文章介绍了一种通过对期望Q值进行高斯平滑处理的方法来学习行动价值概念,并从平滑后的Q值函数中恢复期望奖励关于高斯策略参数的梯度。通过这种方法,可以通过惩罚先前策略的KL散度来改进鞭策优化的效果。该方法在连续控制基准测试中取得了显著的改进。