小红花·文摘

本文提出了一种针对风险目标的强化学习方法，采用广泛的凸评分函数，涵盖多种风险衡量标准。通过引入辅助变量和扩展状态空间，开发了定制的演员-评论家算法，实验证明其在统计套利交易中的有效性。