本研究针对传统期望效用理论与人类偏好不一致的问题,利用累积分前景理论提出新的策略优化方法。文章提出新的策略梯度定理,并开发出无模型的策略梯度算法,有效结合累积分前景理论与强化学习。该算法在交通控制和电力管理等领域表现优异,显示出广泛影响。
本文提出了一种统一框架,将贝尔曼方程中的随机性视为外部噪声的确定性函数,支持连续控制策略的学习。介绍了一系列策略梯度算法,从无模型到有模型的方法,仅需环境观察,减少模型误差影响。算法在随机控制问题和物理模拟中应用,特别是SVG(1)在连续领域中有效地学习模型、价值函数和策略。
本文提出了一个使用强化学习解决车辆路径问题的端到端框架,通过策略梯度算法优化参数,实时生成解决方案,解决负载容量 VRP 的中等规模实例时,在解决质量上优于经典的启发式算法和 Google 的 OR-Tools,同时具有可比较的计算时间。
本文提出了一种新的策略梯度算法,使用非统计方法提供了非渐进收敛保证,并专注于受softmax参数化限制的比例调节,重点是折扣的马尔可夫决策过程。实验证明,该算法在逼近正则化MDP的最优价值函数时,收敛速度为线性或二次,并适应广泛的学习速率,熵正则化在实现快速收敛方面发挥了作用。
完成下面两步后,将自动完成登录并继续当前操作。