联邦自然策略梯度方法用于多任务强化学习
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了新的独立策略梯度算法,研究了其在多智能体强化学习问题上的全局非渐进收敛性质,并找到了一类可实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性的算法。实验验证了理论成果的优点和有效性。
🎯
关键要点
- 研究策略梯度方法在Markov潜在博弈多智能体强化学习问题上的全局非渐进收敛性质。
- 提出新的独立策略梯度算法,证明算法达到epsilon-Nash平衡的迭代复杂度为O(1/epsilon^2)。
- 在利用函数逼近的样本算法中,建立样本复杂度为O(1/epsilon^5)的界限。
- 找到一类独立策略梯度算法,可在玩家对游戏类型无感知的情况下,实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。
- 通过实验验证了理论成果的优点和有效性。
➡️