小红花·文摘

本文提出了一种针对风险目标的强化学习方法，采用广泛的凸评分函数，涵盖多种风险衡量标准。通过引入辅助变量和扩展状态空间，开发了定制的演员-评论家算法，实验证明其在统计套利交易中的有效性。

BriefGPT - AI 论文速递 ·

本研究提出三种适用于合作、对抗和混合环境的演员-评论家算法，解决多智能体强化学习中去中心化训练的不足。通过引入网络通信和替代策略，去中心化算法在降低计算成本的同时，能与原始MADDPG算法达到相似效果，尤其在代理数量较多时更为明显。

BriefGPT - AI 论文速递 ·

本文探讨了多种基于演员-评论家算法的强化学习方法，包括决策感知的联合目标、双重稳健估计、Phased Actor和敌对模型，旨在提升算法的性能、稳定性和探索效率。实验结果表明，这些新方法在连续控制任务中具有显著优势。

BriefGPT - AI 论文速递 ·

该研究提出了一种新的策略梯度和演员-评论家算法，用于解决连续时间强化学习中的平均场控制问题。该方法利用值函数的梯度表示，采用参数化的随机策略。演员和评论家的学习通过动量神经网络函数在概率测度的Wasserstein空间上实现。数值结果包括多维设置和具有可控波动性的非线性二次平均场控制问题。

BriefGPT - AI 论文速递 ·