非原子拥堵博弈中的最优税收设计学习

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

通过启发式学习方案,派生出一种调整复制者漂移的新类连续时间学习动态。该动态基于玩家保留回报的指数折扣总和,并使用平滑最佳响应选择行动。该动态满足进化博弈理论的民间定理变体,并以纳什均衡的逼近收敛于潜在游戏。基于交通工程应用的启发,设计了离散时间的基于回报的学习算法,具有收敛性质,仅需要玩家观察游戏中的回报。

🎯

关键要点

  • 通过启发式学习方案,派生出一种调整复制者漂移的新类连续时间学习动态。
  • 该动态基于玩家保留回报的指数折扣总和,并使用平滑最佳响应选择行动。
  • 所提出的动态满足进化博弈理论的民间定理变体,并以纳什均衡的逼近收敛于潜在游戏。
  • 设计了离散时间的基于回报的学习算法,具有收敛性质,仅需要玩家观察游戏中的回报。
➡️

继续阅读