本研究提出了一种改进的政策空间响应oracle(PSRO)方法,通过引入可扩展的经验博弈树和细化的纳什均衡,提升了策略探索的效率。实验结果表明,该方法在生成新策略和博弈收敛速度方面优于传统方法。
完成下面两步后,将自动完成登录并继续当前操作。