该文介绍了一种通过随机方差缩减策略梯度方法来解决离散时间线性二次调节器(LQR)问题的学习 ε- 近似解的方法。作者提出了一种适用于高成本函数评估的 Oracle - 有效方法,结合了一点和两点估计的方差缩减算法,在 β ∈ (0,1) 的情况下,仅需 O (log (1/ε)^β) 的两点成本信息即可获得近似最优解。
完成下面两步后,将自动完成登录并继续当前操作。