多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化
原文中文,约400字,阅读约需1分钟。发表于: 。提出了一种新颖的模型无关的集合强化学习算法,通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法,并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出,获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比,数值实验结果显示,该算法平均策略误差可以减少高达 55%,运行时复杂度可以减少高达 50%,并验证了理论分析中的假设。
该论文研究了一种分布式强化学习方法,用于实现多智能体马尔可夫决策过程中的网络目标。通过稀疏通信网络上的局部处理和信息交流,实现了代理协作。该分布式方案在几乎确定的情况下,逐渐实现了各个网络层面上的期望值函数和最优静止控制策略。