研究发现,追随者可以通过策略性行动操控领导者的奖励信号,使其策略收敛到对自己更有利的均衡状态。研究还提出了最后迭代收敛和样本复杂度方面的结果,并设计了一种新的操控策略,相对于最优应对策略具有内在优势。实证结果支持理论结果。
完成下面两步后,将自动完成登录并继续当前操作。