小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究针对传统期望效用理论与人类偏好不一致的问题,利用累积分前景理论提出新的策略优化方法。文章提出新的策略梯度定理,并开发出无模型的策略梯度算法,有效结合累积分前景理论与强化学习。该算法在交通控制和电力管理等领域表现优异,显示出广泛影响。

超越预期回报:一种累积分 prospect 理论强化学习的策略梯度算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-03T00:00:00Z

本文提出了一种统一框架,将贝尔曼方程中的随机性视为外部噪声的确定性函数,支持连续控制策略的学习。介绍了一系列策略梯度算法,从无模型到有模型的方法,仅需环境观察,减少模型误差影响。算法在随机控制问题和物理模拟中应用,特别是SVG(1)在连续领域中有效地学习模型、价值函数和策略。

无模型随机过程建模与优化:基于归一化流的方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-26T00:00:00Z

本文提出了一个使用强化学习解决车辆路径问题的端到端框架,通过策略梯度算法优化参数,实时生成解决方案,解决负载容量 VRP 的中等规模实例时,在解决质量上优于经典的启发式算法和 Google 的 OR-Tools,同时具有可比较的计算时间。

公平合作的车辆路径规划:深度多智能体强化学习方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-26T00:00:00Z

本文提出了一种新的策略梯度算法,使用非统计方法提供了非渐进收敛保证,并专注于受softmax参数化限制的比例调节,重点是折扣的马尔可夫决策过程。实验证明,该算法在逼近正则化MDP的最优价值函数时,收敛速度为线性或二次,并适应广泛的学习速率,熵正则化在实现快速收敛方面发挥了作用。

加速策略梯度法:关于强化学习中的 Nesterov 动量

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码