凸马尔可夫博弈:多智能体学习中的公平性、模仿和创造性框架
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对多智能体学习中非线性偏好的问题,提出了凸马尔可夫博弈的框架,该框架允许对状态占用度量的广泛凸偏好进行处理。实验结果表明,该算法在囚徒困境中提供了高效的公平解,同时在模仿人类决策时能显著提高单个参与者的效用。
本文研究了策略梯度方法在多智能体强化学习中的收敛性,提出了一种新的独立策略梯度算法,证明其达到epsilon-Nash平衡的复杂度为O(1/epsilon^2),样本复杂度界限为O(1/epsilon^5)。实验验证了理论结果的有效性。