基于深度强化学习的面向人口的在线镜像下降法求解均场博弈

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

我们提出了一种深度强化学习算法,通过设计额外的内循环重放缓冲区,代理可以有效地学习如何从任何分布实现纳什均衡,从而在大规模多智能体系统中实现依赖于人口的纳什均衡。数值实验结果表明,我们的算法具有比现有技术的算法更好的收敛性质,特别是对于依赖于人口的策略的虚拟游戏的深度强化学习版本。

🎯

关键要点

  • 提出了一种深度强化学习算法

  • 设计了额外的内循环重放缓冲区

  • 代理可以有效学习如何从任何分布实现纳什均衡

  • 在大规模多智能体系统中实现依赖于人口的纳什均衡

  • 数值实验结果显示算法具有更好的收敛性质

  • 特别适用于依赖于人口的策略的虚拟游戏的深度强化学习版本

➡️

继续阅读