q-指数族在策略优化中的应用
原文中文,约200字,阅读约需1分钟。发表于: 。本研究解决了政策优化方法在连续动作空间中易用性的不足,提出了更广泛的$q$-指数家族政策,能够灵活指定重尾和轻尾政策。研究发现,重尾政策在一般情况下效果更佳,尤其是学生t分布在各种设置中比高斯分布更加稳定,并且在离线基准问题中表现优异。
该文章介绍了一种通过对期望Q值进行高斯平滑处理的方法来学习行动价值概念,并从平滑后的Q值函数中恢复期望奖励关于高斯策略参数的梯度。通过这种方法,可以通过惩罚先前策略的KL散度来改进鞭策优化的效果。该方法在连续控制基准测试中取得了显著的改进。