基于超梯度的双层强化学习方法并避免较低级别的凸性
📝
内容提要
通过使用与规则化 RL 相关的固定点方程,我们以全一阶信息表征超梯度,从而回避了对低级凸性的假设,并提出了基于模型和无模型的双层强化学习算法,都被证明具有收敛速度 O (ε^(-1))。
🏷️
标签
➡️
通过使用与规则化 RL 相关的固定点方程,我们以全一阶信息表征超梯度,从而回避了对低级凸性的假设,并提出了基于模型和无模型的双层强化学习算法,都被证明具有收敛速度 O (ε^(-1))。