小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种基于深度确定性策略梯度(DDPG)的新算法,用于解决动态金融市场中学习非马尔可夫最优执行策略的问题。该算法通过建模瞬时价格影响,逼近最优策略,适应市场变化,减少人为干预。实验验证了其有效性。

在线最优执行策略的深度强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

研究提出了一种新的探索方法$ ext{ε}_t$-greedy,解决稀疏奖励的强化学习问题。结合双重经验回放缓冲框架GDRB和最长n步回报计算,ETGL-DDPG在标准测试中表现优于传统DDPG。该方法通过提高探索效率,在稀疏奖励环境中展示了有效性,为强化学习提供了新工具。

ETGL-DDPG:一种用于稀疏奖励连续控制的深度确定性策略梯度算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

本文使用MuJoCo物理模拟器比较了Q学习、SARSA和DDPG三种方法在连续控制环境中的性能。结果显示Q学习在大量回合中得分超过SARSA,但DDPG在少数回合中表现更好。通过调整超参数可以提高性能并节省时间和资源消耗。作者预期DDPG的新设计将显著提高性能,并希望在充足的时间和计算资源下进一步提升性能。

通过持续行动的可变时间离散化的演员 - 评论家方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-08T00:00:00Z
DDPG训练时如何判断有效收敛

本文介绍了有效收敛概念和DDPG算法,对比实验发现有效收敛的critic loss波动较大,无效收敛的反而很快收敛到0附近。作者认为这是因为critic和actor相互依赖,所以critic loss不应该收敛很快。

DDPG训练时如何判断有效收敛

我有点酷-HuntZou的博客
我有点酷-HuntZou的博客 · 2023-07-12T00:13:49Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码