基于模型的均场博弈强化学习并不比单智能体强化学习更难统计

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了两种方法解决深度强化学习算法在非线性函数逼近下无法处理 mean field games 的问题。第一种方法是通过神经网络将历史数据蒸馏为混合策略,应用于 Fictitious Play 算法。第二种方法是一种基于正则化的在线混合方法,不需要记忆历史数据或先前的评估,可以扩展在线 Mirror Descent 算法。数值实验表明,这些方法有效地解决了各种 mean field games,并且优于文献中的 SotA 基线。

🎯

关键要点

  • 提出两种方法解决深度强化学习算法在非线性函数逼近下处理 mean field games 的问题。
  • 第一种方法通过神经网络将历史数据蒸馏为混合策略,应用于 Fictitious Play 算法。
  • 第二种方法是一种基于正则化的在线混合方法,不需要记忆历史数据或先前的评估。
  • 第二种方法可以扩展在线 Mirror Descent 算法。
  • 数值实验表明这些方法有效解决各种 mean field games,并优于文献中的 SotA 基线。
➡️

继续阅读