无模型 LQR 的 Oracle 复杂度减小:一种随机方差减小策略梯度方法
原文中文,约300字,阅读约需1分钟。发表于: 。通过随机方差缩减策略梯度方法,我们研究了离散时间线性二次调节器(LQR)问题的学习 ε- 近似解的问题。我们提出了一种适用于有高昂成本的成本函数评估的 Oracle - 有效方法,结合了一点和两点估计的方差缩减算法,在 β ∈ (0,1) 的情况下,仅需 O (log (1/ε)^β) 的两点成本信息即可获得近似最优解。
该文介绍了一种通过随机方差缩减策略梯度方法来解决离散时间线性二次调节器(LQR)问题的学习 ε- 近似解的方法。作者提出了一种适用于高成本函数评估的 Oracle - 有效方法,结合了一点和两点估计的方差缩减算法,在 β ∈ (0,1) 的情况下,仅需 O (log (1/ε)^β) 的两点成本信息即可获得近似最优解。