一种具有常规策略参数化的平均奖励强化学习的加速多层蒙特卡罗方法
发表于: 。通过引入 Randomized Accelerated Natural Actor Critic 方法,我们在一般策略参数化的平均回报强化学习领域中,实现了全局收敛速率为 Ο(1/√T) 的方法,无需混合时间的先验知识,显著超过 Ο(1/T^(1/4)) 的现有界限。
通过引入 Randomized Accelerated Natural Actor Critic 方法,我们在一般策略参数化的平均回报强化学习领域中,实现了全局收敛速率为 Ο(1/√T) 的方法,无需混合时间的先验知识,显著超过 Ο(1/T^(1/4)) 的现有界限。