小红花·文摘

该研究提出了一种新的策略梯度和演员-评论家算法，用于解决连续时间强化学习中的平均场控制问题。该方法利用值函数的梯度表示，采用参数化的随机策略。演员和评论家的学习通过动量神经网络函数在概率测度的Wasserstein空间上实现。数值结果包括多维设置和具有可控波动性的非线性二次平均场控制问题。