该文探讨了深度强化学习中政策梯度方法的局限性,即在某些MDP类别中,策略空间的优化景观可能非常非平滑或呈分形结构,导致无法估计梯度。作者提出了一种实用方法,通过采样来估计目标函数的局部平滑性,以识别训练过程中是否遇到分形景观。作者通过实验展示了如何解释政策优化的一些失败案例。
完成下面两步后,将自动完成登录并继续当前操作。