线性 MDPs 中具有累积赌臂反馈的近最优遗憾

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本论文研究了联合强化学习在表格式情节马尔可夫决策过程中的应用。通过中央服务器的协调,多个代理在不共享原始数据的情况下学习最优策略。提出了两种联合 Q 学习算法,并证明了在时间范围足够大时,可以实现线性加速和对数通信成本。这是第一篇展示模型无关的联合强化学习算法可以实现线性后悔加速和对数通信成本的工作。

原文中文,约400字,阅读约需1分钟。
阅读原文