在弱通信马尔可夫决策过程中平均奖励Q学习的收敛性
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
本文研究了基于模型的强化学习中的非线性函数逼近,并提出了两种适用于不同类型的MDP的算法。UCRL2-MNL算法具有(近似)Ο(dD√T)的遗憾保证,OVIFH-MNL算法具有(近似)Ο(d^(2/5)sp(v^*)T^(4/5))的遗憾保证。对于最大直径为D的可通信MDP,学习具有MNL转移的复杂度的下界为Ω(d√(DT))。对于具有MNL函数逼近的H-时间界的情况,展示了Ω(dH^(3/2)√K)的遗憾下界。
🎯
关键要点
-
研究了具有非线性函数逼近的基于模型的强化学习。
-
底层马尔可夫决策过程(MDP)的转移函数由多项式逻辑模型给出。
-
提出了两种算法:UCRL2-MNL和OVIFH-MNL。
-
UCRL2-MNL算法适用于通信MDP类,具有(近似)Ο(dD√T)的遗憾保证。
-
OVIFH-MNL算法适用于弱通信MDP类,具有(近似)Ο(d^(2/5)sp(v^*)T^(4/5)的遗憾保证。
-
证明了最大直径为D的可通信MDP的学习复杂度下界为Ω(d√(DT))。
-
展示了具有MNL函数逼近的H-时间界的遗憾下界为Ω(dH^(3/2)√K),优于已知最佳下界。
➡️