线性 MDPs 中具有累积赌臂反馈的近最优遗憾

该研究通过使用集成的 Q 函数和新的随机化技术构建基于值的乐观算法，并使用新的对冲方案构建政策优化算法，对具有聚合强化学习反馈的线性函数逼近进行了扩展研究。

本论文研究了联合强化学习在表格式情节马尔可夫决策过程中的应用。通过中央服务器的协调，多个代理在不共享原始数据的情况下学习最优策略。提出了两种联合 Q 学习算法，并证明了在时间范围足够大时，可以实现线性加速和对数通信成本。这是第一篇展示模型无关的联合强化学习算法可以实现线性后悔加速和对数通信成本的工作。