基于区间的平均奖励 MDP 的最优样本复杂度

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本研究探讨了基于生成模型的平均回报马尔科夫决策过程(MDP)中学习 ε- 最优策略的样本复杂度。结果表明,在参数 S、A、H 和 ε 上是极小极大最优的,并进一步改进了现有工作。该研究将平均回报 MDP 简化为折扣 MDP,并对 γ 折扣 MDP 进行了改进的界限。分析结果显示,在 γ≥1-1/H 的情况下,采样 Ω(SA (H/((1-γ)^2ε^2))) 足以在弱通信 MDP 中学习 ε- 最优策略。该研究还对某些实例相关方差参数进行了上界估计,具有广泛的应用。

🎯

关键要点

  • 本研究探讨了基于生成模型的平均回报马尔科夫决策过程(MDP)中学习 ε-最优策略的样本复杂度。

  • 建立了复杂度界限 Ω(SA (H/ε^2)),在参数 S、A、H 和 ε 上是极小极大最优的。

  • 研究进一步改进了现有工作,避免了对所有策略的混合时间均匀有界或对参数的次优依赖的假设。

  • 将平均回报 MDP 简化为折扣 MDP,并对 γ 折扣 MDP 进行了改进的界限。

  • 在 γ≥1-1/H 的情况下,采样 Ω(SA (H/((1-γ)^2ε^2))) 足以在弱通信 MDP 中学习 ε-最优策略。

  • 规避了适用于一般 γ 折扣 MDP 的已知下限 Ω(SA/(1-γ)^3ε^2)。

  • 分析以跨度参数为基础,对某些实例相关方差参数进行了上界估计,具有更广泛的应用潜力。

➡️

继续阅读