线性 MDPs 中具有累积赌臂反馈的近最优遗憾

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本论文研究了联合强化学习在表格式情节马尔可夫决策过程中的应用。通过中央服务器的协调,多个代理在不共享原始数据的情况下学习最优策略。提出了两种联合 Q 学习算法,并证明了在时间范围足够大时,可以实现线性加速和对数通信成本。这是第一篇展示模型无关的联合强化学习算法可以实现线性后悔加速和对数通信成本的工作。

🎯

关键要点

  • 本论文研究联合强化学习在表格式情节马尔可夫决策过程中的应用。

  • 多个代理通过中央服务器协调,在不共享原始数据的情况下学习最优策略。

  • 提出了两种联合 Q 学习算法:FedQ-Hoeffding 和 FedQ-Bernstein。

  • 证明了在时间范围足够大时,可以实现线性加速和对数通信成本。

  • 研究依赖于事件触发同步机制和新型步长选择。

  • 首次展示模型无关的联合强化学习算法实现线性后悔加速和对数通信成本。

➡️

继续阅读