本文提出了一种针对风险目标的强化学习方法,采用广泛的凸评分函数,涵盖多种风险衡量标准。通过引入辅助变量和扩展状态空间,开发了定制的演员-评论家算法,实验证明其在统计套利交易中的有效性。
完成下面两步后,将自动完成登录并继续当前操作。