可证明有效的无限时间平均奖励强化学习与线性函数逼近
原文中文,约500字,阅读约需1分钟。发表于: 。本文提出了一种计算上可行的算法,用于学习无限时间平均奖励的线性马尔可夫决策过程(MDP)和线性混合MDP,满足贝尔曼最优性条件。该算法在保证计算效率的同时,对于线性MDP实现了已知的最佳后悔界限,具有显著的理论和实践意义。
本文研究了基于模型的强化学习中的非线性函数逼近,并提出了两种适用于不同类型的MDP的算法。算法UCRL2-MNL和OVIFH-MNL分别具有(近似)Ο(dD√T)和(近似)Ο(d^(2/5)sp(v^*)T^(4/5))的遗憾保证。对于最大直径为D的可通信MDP,学习具有MNL转移的复杂度的下界为Ω(d√(DT))。对于具有MNL函数逼近的H-时间界的情况,展示了Ω(dH^(3/2)√K)的遗憾下界。