自然策略梯度法结合基于 Hessian 辅助的动量方差减小的全局收敛性
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
加速自然策略梯度算法(ANPG)用于解决无限时间折扣奖励马尔可夫决策过程问题。ANPG在一般参数化情况下具有较低的样本复杂度和迭代复杂度,通过改进样本复杂度提高了效率。
🎯
关键要点
-
加速自然策略梯度算法(ANPG)用于解决无限时间折扣奖励马尔可夫决策过程问题。
-
ANPG 在一般参数化情况下实现了 O (ε^-2) 的样本复杂度和 O (ε^-1) 的迭代复杂度。
-
ANPG 通过 log (1/ε) 因子改进了样本复杂度,提升了效率。
-
ANPG 是一阶算法,不需要假设重要性采样权重的方差有上界。
-
在无 Hessian 和无重要性采样算法类别中,ANPG 的样本复杂度超过了已知算法的 O (ε^-1/2) 倍,并与其迭代复杂度相匹配。
🏷️
标签
➡️