在弱通信马尔可夫决策过程中平均奖励Q学习的收敛性

本文研究了在平均奖励标准下的马尔可夫决策过程中的强化学习算法，特别关注基于相对价值迭代的Q学习算法，这些算法适用于大状态空间问题。研究延伸了之前的几乎确定收敛性分析，使其适用于更广泛的弱通信MDP，为理论和应用提供了重要的 insights，并证明了算法收敛的集合具有丰富的结构。

本文研究了基于模型的强化学习中的非线性函数逼近，并提出了两种适用于不同类型的MDP的算法。UCRL2-MNL算法具有(近似)Ο(dD√T)的遗憾保证，OVIFH-MNL算法具有(近似)Ο(d^(2/5)sp(v^*)T^(4/5))的遗憾保证。对于最大直径为D的可通信MDP，学习具有MNL转移的复杂度的下界为Ω(d√(DT))。对于具有MNL函数逼近的H-时间界的情况，展示了Ω(dH^(3/2)√K)的遗憾下界。

MDP 强化学习模型算法非线性函数逼近