基于随机半梯度下降的平均场博弈学习与人口感知函数逼近

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种在线学习方法SemiSGD,解决了传统平均场博弈学习方法的不足,同时更新策略与人口估计,具有有限时间收敛性和逼近误差分析。

🎯

关键要点

  • 本研究提出了一种在线学习方法SemiSGD。
  • SemiSGD解决了传统平均场博弈学习方法在效率和稳定性方面的不足。
  • 该方法能够实现代理同时更新策略与人口估计。
  • 研究提供了新的视角,将价值函数和人口分布视为统一参数。
  • 实现了在连续状态-动作空间上首个支持人口感知的线性函数逼近。
  • 该方法具有有限时间收敛性和逼近误差分析。
➡️

继续阅读