无模型 LQR 的 Oracle 复杂度减小:一种随机方差减小策略梯度方法

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该文介绍了一种通过随机方差缩减策略梯度方法来解决离散时间线性二次调节器(LQR)问题的学习 ε- 近似解的方法。作者提出了一种适用于高成本函数评估的 Oracle - 有效方法,结合了一点和两点估计的方差缩减算法,在 β ∈ (0,1) 的情况下,仅需 O (log (1/ε)^β) 的两点成本信息即可获得近似最优解。

🎯

关键要点

  • 该文介绍了一种通过随机方差缩减策略梯度方法解决离散时间线性二次调节器(LQR)问题的学习 ε-近似解的方法。

  • 作者提出了一种适用于高成本函数评估的 Oracle-有效方法。

  • 该方法结合了一点和两点估计的方差缩减算法。

  • 在 β ∈ (0,1) 的情况下,仅需 O(log(1/ε)^β) 的两点成本信息即可获得近似最优解。

➡️

继续阅读