关于随机(方差减少)近端梯度法在正则化期望回报优化中的应用

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文研究了基于正则化预期奖励优化问题的随机近端梯度方法。通过应用高效的随机方差缩减近端梯度方法和基于重要性采样的概率梯度估计器,样本复杂度从O(ε^{-4})提高到O(ε^{-3})。在强化学习文献中,该方法与竞争对手的随机近端梯度方法的样本复杂度相匹配。

🎯

关键要点

  • 本文研究了基于正则化预期奖励优化问题的随机近端梯度方法。
  • 在标准条件下,该方法的样本复杂度为 O(ε^{-4})。
  • 经典随机梯度估计器的方差较大,导致收敛速度变慢。
  • 应用高效的随机方差缩减近端梯度方法和基于重要性采样的概率梯度估计器。
  • 在附加条件下,样本复杂度提高到 O(ε^{-3})。
  • 该方法的样本复杂度与竞争对手的随机近端梯度方法相匹配。
➡️

继续阅读