基于区间的平均奖励 MDP 的最优样本复杂度

我们研究了一个基于生成模型的平均回报马尔科夫决策过程（MDP）中学习一个 ε- 最优策略的样本复杂度，建立了复杂度界限 Ω(SA (H/ε^2))。我们的结果在参数 S、A、H 和 ε 上是极小极大最优的（最多有对数系数），进一步改进了现有工作，其中要么假定所有策略的混合时间均匀有界，要么对参数有次优的依赖。我们的结果基于将平均回报 MDP 简化为折扣...

本研究探讨了基于生成模型的平均回报马尔科夫决策过程（MDP）中学习 ε- 最优策略的样本复杂度。结果表明，在参数 S、A、H 和 ε 上是极小极大最优的，并进一步改进了现有工作。该研究将平均回报 MDP 简化为折扣 MDP，并对 γ 折扣 MDP 进行了改进的界限。分析结果显示，在 γ≥1-1/H 的情况下，采样 Ω(SA (H/((1-γ)^2ε^2))) 足以在弱通信 MDP 中学习 ε- 最优策略。该研究还对某些实例相关方差参数进行了上界估计，具有广泛的应用。