基于深度强化学习的面向人口的在线镜像下降法求解均场博弈
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
我们提出了一种深度强化学习算法,通过设计额外的内循环重放缓冲区,代理可以有效地学习如何从任何分布实现纳什均衡,从而在大规模多智能体系统中实现依赖于人口的纳什均衡。数值实验结果表明,我们的算法具有比现有技术的算法更好的收敛性质,特别是对于依赖于人口的策略的虚拟游戏的深度强化学习版本。
🎯
关键要点
-
提出了一种深度强化学习算法
-
设计了额外的内循环重放缓冲区
-
代理可以有效学习如何从任何分布实现纳什均衡
-
在大规模多智能体系统中实现依赖于人口的纳什均衡
-
数值实验结果显示算法具有更好的收敛性质
-
特别适用于依赖于人口的策略的虚拟游戏的深度强化学习版本
➡️