本论文研究了联合强化学习在表格式情节马尔可夫决策过程中的应用。通过中央服务器的协调,多个代理在不共享原始数据的情况下学习最优策略。提出了两种联合 Q 学习算法,并证明了在时间范围足够大时,可以实现线性加速和对数通信成本。这是第一篇展示模型无关的联合强化学习算法可以实现线性后悔加速和对数通信成本的工作。
该研究使用在线知识蒸馏方法,通过对比损失来学习相似特征。参与者的输入数据不需要共享,而是将特征表示发布到中央服务器。客户端使用对比目标来蒸馏知识,提高模型效用。该框架在多个数据集上进行了性能测试。
完成下面两步后,将自动完成登录并继续当前操作。