小红花·文摘

本文研究了带有领导者和追随者的博弈，提出了一种优化的强化学习算法以求得斯塔克伯格-纳什均衡。研究表明，在短视追随者的情况下，该算法在大状态空间中有效，具有亚线性遗憾和亚最优性。通过交互式查询和多智能体学习，探索了学习动态和最优策略的实现，显示出显著的样本效率提升。