在弱通信马尔可夫决策过程中平均奖励Q学习的收敛性

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本文研究了基于模型的强化学习中的非线性函数逼近,并提出了两种适用于不同类型的MDP的算法。UCRL2-MNL算法具有(近似)Ο(dD√T)的遗憾保证,OVIFH-MNL算法具有(近似)Ο(d^(2/5)sp(v^*)T^(4/5))的遗憾保证。对于最大直径为D的可通信MDP,学习具有MNL转移的复杂度的下界为Ω(d√(DT))。对于具有MNL函数逼近的H-时间界的情况,展示了Ω(dH^(3/2)√K)的遗憾下界。

原文中文,约500字,阅读约需1分钟。
阅读原文