本文研究了多智能体强化学习中的风险敏感问题,提出了风险平衡后悔的定义,并开发了自我博弈算法以学习纳什均衡。研究表明,现有方法可能导致偏差,且在多项式时间内无法实现无后悔学习。通过理论证明和实验,提出了新方法以提高算法在竞争环境中的收敛性和稳健性。
完成下面两步后,将自动完成登录并继续当前操作。