小红花·文摘

本文研究了多智能体强化学习中的风险敏感问题，提出了风险平衡后悔的定义，并开发了自我博弈算法以学习纳什均衡。研究表明，现有方法可能导致偏差，且在多项式时间内无法实现无后悔学习。通过理论证明和实验，提出了新方法以提高算法在竞争环境中的收敛性和稳健性。