本研究针对传统期望效用理论与人类偏好不一致的问题,利用累积分前景理论提出新的策略优化方法。文章提出新的策略梯度定理,并开发出无模型的策略梯度算法,有效结合累积分前景理论与强化学习。该算法在交通控制和电力管理等领域表现优异,显示出广泛影响。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: