自然策略梯度法结合基于 Hessian 辅助的动量方差减小的全局收敛性

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

加速自然策略梯度算法(ANPG)用于解决无限时间折扣奖励马尔可夫决策过程问题。ANPG在一般参数化情况下具有较低的样本复杂度和迭代复杂度,通过改进样本复杂度提高了效率。

🎯

关键要点

  • 加速自然策略梯度算法(ANPG)用于解决无限时间折扣奖励马尔可夫决策过程问题。

  • ANPG 在一般参数化情况下实现了 O (ε^-2) 的样本复杂度和 O (ε^-1) 的迭代复杂度。

  • ANPG 通过 log (1/ε) 因子改进了样本复杂度,提升了效率。

  • ANPG 是一阶算法,不需要假设重要性采样权重的方差有上界。

  • 在无 Hessian 和无重要性采样算法类别中,ANPG 的样本复杂度超过了已知算法的 O (ε^-1/2) 倍,并与其迭代复杂度相匹配。

➡️

继续阅读