本文提出了两种方法解决深度强化学习算法在非线性函数逼近下无法处理 mean field games 的问题。第一种方法是通过神经网络将历史数据蒸馏为混合策略,应用于 Fictitious Play 算法。第二种方法是一种基于正则化的在线混合方法,不需要记忆历史数据或先前的评估,可以扩展在线 Mirror Descent 算法。数值实验表明,这些方法有效地解决了各种 mean field games,并且优于文献中的 SotA 基线。
完成下面两步后,将自动完成登录并继续当前操作。