约束的演员 - 评论家算法和约束的自然演员 - 评论家算法的有限时间分析
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该文介绍了应用Lagrange乘数法对带有不等式约束的C-MDP中的actor critic和natural actor critic算法进行非渐近分析的结果。证明了这些算法在非独立同分布环境中能够找到性能函数的一阶稳定点,其采样复杂度分别为ε^{-2.5}。实验结果表明这两个算法在大网格尺寸上表现良好,受限的自然actor critic稍微优于受限的actor critic,而对于小网格尺寸,后者稍微优于前者。
🎯
关键要点
-
应用Lagrange乘数法对带有不等式约束的C-MDP中的actor critic和natural actor critic算法进行非渐近分析。
-
证明这些算法在非独立同分布环境中能够找到性能函数的一阶稳定点。
-
这两个算法的采样复杂度为ε^{-2.5}。
-
实验结果显示在大网格尺寸上这两个算法表现良好。
-
受限的自然actor critic算法稍微优于受限的actor critic算法。
-
在小网格尺寸上,受限的actor critic算法稍微优于受限的自然actor critic算法。
➡️