使用矩阵神经网络的均场控制的演员评价学习算法
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究提出了一种新的策略梯度和演员-评论家算法,用于解决连续时间强化学习中的平均场控制问题。该方法利用值函数的梯度表示,采用参数化的随机策略。演员和评论家的学习通过动量神经网络函数在概率测度的Wasserstein空间上实现。数值结果包括多维设置和具有可控波动性的非线性二次平均场控制问题。
🎯
关键要点
- 该研究提出了一种新的策略梯度和演员-评论家算法。
- 算法用于解决连续时间强化学习中的平均场控制问题。
- 方法利用值函数的梯度表示,采用参数化的随机策略。
- 演员和评论家的学习通过动量神经网络函数在Wasserstein空间上实现。
- 研究解决了平均场框架特定的计算处理挑战。
- 提供了一组全面的数值结果,包括多维设置和可控波动性的非线性二次平均场控制问题。
➡️