本研究提出了一种基于累积分前景理论的新策略梯度算法,旨在解决传统期望效用理论与人类偏好的不一致问题。该算法在交通控制和电力管理等领域表现优异,展示了广泛的应用潜力。
本文提出了一种统一框架,通过反向传播学习连续控制策略,支持随机控制。研究展示了从无模型到有模型的通用策略梯度算法,并在多个物理控制问题中验证了其有效性。同时,文章探讨了贝叶斯优化在过程系统设计中的应用进展及挑战,强调提高模型质量和样本效率的重要性。
本文探讨了博弈理论中的Shapley值在强化学习模型性能解释中的应用,提出了Counterfactual SHAP和FAE框架,增强了可操作性与特征归因的联系。研究应用反事实思想解决强化学习中的奖励影响问题,并提出新的策略梯度算法。通过实验评估了不同方法的有效性和适用性。
本文介绍了一种结合贝叶斯推断和不确定性马尔科夫决策过程(uMDPs)的鲁棒任意学习方法,并通过实验验证其有效性。同时,提出了基于风险受限规划的算法和增量马尔可夫决策过程(iMDP),旨在优化控制策略。此外,研究探讨了基于随机动作集合的马尔可夫决策过程(SAS-MDP)及其新策略梯度算法的实用性。
本文提出了一种快速算法,利用采样技术解决折扣马尔可夫决策过程的近似求解,并证明了其收敛性和复杂度。结合经典价值迭代与方差约减技术,改进了算法性能,实现线性收敛性和渐进最优性。同时,研究了强化学习中的样本复杂度问题,提出了新型策略梯度算法以提高采样效率,并通过数值实验验证了其有效性。
本文研究了在分布式优化中通过随机性隐藏最优解的方法,并提出了一种高效的策略梯度算法,以应对恶意窃听者的干扰。实验结果表明,采用最优策略时,窃听者的验证精度显著降低,验证了该方法在联邦学习中的有效性。
本文提出了一个使用强化学习解决车辆路径问题的端到端框架,通过策略梯度算法优化参数,实时生成解决方案,解决负载容量 VRP 的中等规模实例时,在解决质量上优于经典的启发式算法和 Google 的 OR-Tools,同时具有可比较的计算时间。
本文提出了一种新的策略梯度算法,使用非统计方法提供了非渐进收敛保证,并专注于受softmax参数化限制的比例调节,重点是折扣的马尔可夫决策过程。实验证明,该算法在逼近正则化MDP的最优价值函数时,收敛速度为线性或二次,并适应广泛的学习速率,熵正则化在实现快速收敛方面发挥了作用。
完成下面两步后,将自动完成登录并继续当前操作。