加速策略梯度法:关于强化学习中的 Nesterov 动量
原文中文,约300字,阅读约需1分钟。发表于: 。加速策略梯度(APG)是一种基于 Nesterov 加速梯度方法的强化学习(RL)算法,通过形式化证明 APG 在真梯度下以接近 1/t^2 的速度收敛,首次给出了 NAG 在 RL 背景下的全局收敛率,数值验证显示 APG 相比标准策略梯度能显著改善收敛行为。
本文提出了一种新的策略梯度算法,使用非统计方法提供了非渐进收敛保证,并专注于受softmax参数化限制的比例调节,重点是折扣的马尔可夫决策过程。实验证明,该算法在逼近正则化MDP的最优价值函数时,收敛速度为线性或二次,并适应广泛的学习速率,熵正则化在实现快速收敛方面发挥了作用。