本文研究了带有领导者和追随者的博弈,提出了一种优化的强化学习算法以求得斯塔克伯格-纳什均衡。研究表明,在短视追随者的情况下,该算法在大状态空间中有效,具有亚线性遗憾和亚最优性。通过交互式查询和多智能体学习,探索了学习动态和最优策略的实现,显示出显著的样本效率提升。
完成下面两步后,将自动完成登录并继续当前操作。