æœªçŸ¥ç‹¬ç«‹é“¾ $n$- äººéšæœºåšå¼ˆä¸çº³ä»€å‡è¡¡ç–ç•¥çš„å¯æ‰©å±•ä¸Žç‹¬ç«‹å¦ä¹

在一种类别的随机博弈中，利用自治的镜面下降算法通过占用测量和置信区间技术提出了一种学习算法，以构建稳定的 ε-NE 策略集合，并证明了其多项式时间收敛性。

本文研究了策略梯度方法在多智能体强化学习问题上的全局非渐进收敛性质，提出了新的独立策略梯度算法，证明了算法达到epsilon-Nash平衡的迭代复杂度为O(1/epsilon^2)，建立了样本复杂度为O(1/epsilon^5)的界限。同时，找到了一类独立策略梯度算法，可在玩家对游戏类型无感知的情况下，实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。实验证明了理论成果的优点和有效性。