基于超梯度的双层强化学习方法并避免较低级别的凸性

📝

内容提要

通过使用与规则化 RL 相关的固定点方程,我们以全一阶信息表征超梯度,从而回避了对低级凸性的假设,并提出了基于模型和无模型的双层强化学习算法,都被证明具有收敛速度 O (ε^(-1))。

🏷️

标签

➡️

继续阅读