小红花·文摘

本研究针对传统期望效用理论与人类偏好不一致的问题，利用累积分前景理论提出新的策略优化方法。文章提出新的策略梯度定理，并开发出无模型的策略梯度算法，有效结合累积分前景理论与强化学习。该算法在交通控制和电力管理等领域表现优异，显示出广泛影响。

BriefGPT - AI 论文速递 ·

本文提出了一种统一框架，将贝尔曼方程中的随机性视为外部噪声的确定性函数，支持连续控制策略的学习。介绍了一系列策略梯度算法，从无模型到有模型的方法，仅需环境观察，减少模型误差影响。算法在随机控制问题和物理模拟中应用，特别是SVG（1）在连续领域中有效地学习模型、价值函数和策略。

BriefGPT - AI 论文速递 ·

本文提出了一个使用强化学习解决车辆路径问题的端到端框架，通过策略梯度算法优化参数，实时生成解决方案，解决负载容量 VRP 的中等规模实例时，在解决质量上优于经典的启发式算法和 Google 的 OR-Tools，同时具有可比较的计算时间。

BriefGPT - AI 论文速递 ·

本文提出了一种新的策略梯度算法，使用非统计方法提供了非渐进收敛保证，并专注于受softmax参数化限制的比例调节，重点是折扣的马尔可夫决策过程。实验证明，该算法在逼近正则化MDP的最优价值函数时，收敛速度为线性或二次，并适应广泛的学习速率，熵正则化在实现快速收敛方面发挥了作用。

BriefGPT - AI 论文速递 ·