小红花·文摘

本文提出了新的独立策略梯度算法，研究了其在多智能体强化学习问题上的全局非渐进收敛性质，并找到了一类可实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性的算法。实验验证了理论成果的优点和有效性。