虚构交互:混合合作竞争游戏中全局纳什平衡的学习
PSRO是一种用于学习多智能体系统中的策略的通用算法框架,通过将经验博弈分析与深度强化学习相互交错,每次迭代中使用深度强化学习来训练最佳响应,从而减少了模拟调整所需的计算量。Mixed-Oracles和Mixed-Opponents是PSRO的两种变体,能够减少Deep RL训练期间需要的模拟量,同时产生与游戏等价或更好的解决方案。
原文中文,约300字,阅读约需1分钟。
PSRO是一种用于学习多智能体系统中的策略的通用算法框架,通过将经验博弈分析与深度强化学习相互交错,每次迭代中使用深度强化学习来训练最佳响应,从而减少了模拟调整所需的计算量。Mixed-Oracles和Mixed-Opponents是PSRO的两种变体,能够减少Deep RL训练期间需要的模拟量,同时产生与游戏等价或更好的解决方案。