小红花·文摘

本研究提出了一种基于深度确定性策略梯度（DDPG）的新算法，用于解决动态金融市场中学习非马尔可夫最优执行策略的问题。该算法通过建模瞬时价格影响，逼近最优策略，适应市场变化，减少人为干预。实验验证了其有效性。

在线最优执行策略的深度强化学习

BriefGPT - AI 论文速递 ·

研究提出了一种新的探索方法$ ext{ε}_t$-greedy，解决稀疏奖励的强化学习问题。结合双重经验回放缓冲框架GDRB和最长n步回报计算，ETGL-DDPG在标准测试中表现优于传统DDPG。该方法通过提高探索效率，在稀疏奖励环境中展示了有效性，为强化学习提供了新工具。

ETGL-DDPG：一种用于稀疏奖励连续控制的深度确定性策略梯度算法

BriefGPT - AI 论文速递 ·

本文使用MuJoCo物理模拟器比较了Q学习、SARSA和DDPG三种方法在连续控制环境中的性能。结果显示Q学习在大量回合中得分超过SARSA，但DDPG在少数回合中表现更好。通过调整超参数可以提高性能并节省时间和资源消耗。作者预期DDPG的新设计将显著提高性能，并希望在充足的时间和计算资源下进一步提升性能。

通过持续行动的可变时间离散化的演员 - 评论家方法

BriefGPT - AI 论文速递 ·

DDPG训练时如何判断有效收敛

我有点酷-HuntZou的博客 ·