广义和谐史塔克伯格博弈中的去中心化在线学习
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
研究发现,追随者可以通过策略性行动操控领导者的奖励信号,使其策略收敛到对自己更有利的均衡状态。研究还提出了最后迭代收敛和样本复杂度方面的结果,并设计了一种新的操控策略,相对于最优应对策略具有内在优势。实证结果支持理论结果。
🎯
关键要点
- 研究了分布式和策略性在线学习问题。
- 在有限信息情境中,追随者按照局部最优策略响应领导者的行动。
- 在附加信息情境中,追随者可以操控领导者的奖励信号。
- 追随者的操控使领导者的策略收敛到对自己更有利的均衡状态。
- 提出了最后迭代收敛和样本复杂度方面的结果。
- 设计了一种新的操控策略,具有内在优势。
- 理论结果得到了实证结果的支持。
➡️