该文介绍了一种用于图形平均场博弈算法的强化学习算法,旨在学习当图形值未知时的正则化纳什均衡。该算法通过邻近策略优化和分布的核嵌入来估计转移核、奖励函数和图形值,并证明了其收敛速度。
完成下面两步后,将自动完成登录并继续当前操作。