小红花·文摘

本研究提出了一种改进的政策空间响应oracle（PSRO）方法，通过引入可扩展的经验博弈树和细化的纳什均衡，提升了策略探索的效率。实验结果表明，该方法在生成新策略和博弈收敛速度方面优于传统方法。