基于区间的平均奖励 MDP 的最优样本复杂度
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本研究探讨了基于生成模型的平均回报马尔科夫决策过程(MDP)中学习 ε- 最优策略的样本复杂度。结果表明,在参数 S、A、H 和 ε 上是极小极大最优的,并进一步改进了现有工作。该研究将平均回报 MDP 简化为折扣 MDP,并对 γ 折扣 MDP 进行了改进的界限。分析结果显示,在 γ≥1-1/H 的情况下,采样 Ω(SA (H/((1-γ)^2ε^2))) 足以在弱通信 MDP 中学习 ε- 最优策略。该研究还对某些实例相关方差参数进行了上界估计,具有广泛的应用。
🎯
关键要点
-
本研究探讨了基于生成模型的平均回报马尔科夫决策过程(MDP)中学习 ε-最优策略的样本复杂度。
-
建立了复杂度界限 Ω(SA (H/ε^2)),在参数 S、A、H 和 ε 上是极小极大最优的。
-
研究进一步改进了现有工作,避免了对所有策略的混合时间均匀有界或对参数的次优依赖的假设。
-
将平均回报 MDP 简化为折扣 MDP,并对 γ 折扣 MDP 进行了改进的界限。
-
在 γ≥1-1/H 的情况下,采样 Ω(SA (H/((1-γ)^2ε^2))) 足以在弱通信 MDP 中学习 ε-最优策略。
-
规避了适用于一般 γ 折扣 MDP 的已知下限 Ω(SA/(1-γ)^3ε^2)。
-
分析以跨度参数为基础,对某些实例相关方差参数进行了上界估计,具有更广泛的应用潜力。
➡️