凸马尔可夫博弈：多智能体学习中的公平性、模仿和创造性框架

本研究针对多智能体学习中非线性偏好的问题，提出了凸马尔可夫博弈的框架，该框架允许对状态占用度量的广泛凸偏好进行处理。实验结果表明，该算法在囚徒困境中提供了高效的公平解，同时在模仿人类决策时能显著提高单个参与者的效用。

本文研究了策略梯度方法在多智能体强化学习中的收敛性，提出了一种新的独立策略梯度算法，证明其达到epsilon-Nash平衡的复杂度为O(1/epsilon^2)，样本复杂度界限为O(1/epsilon^5)。实验验证了理论结果的有效性。

epsilon-Nash平衡多智能体强化学习样本复杂度策略梯度