本研究提出了一种基于深度确定性策略梯度(DDPG)的新算法,用于解决动态金融市场中学习非马尔可夫最优执行策略的问题。该算法通过建模瞬时价格影响,逼近最优策略,适应市场变化,减少人为干预。实验验证了其有效性。
研究提出了一种新的探索方法$ ext{ε}_t$-greedy,解决稀疏奖励的强化学习问题。结合双重经验回放缓冲框架GDRB和最长n步回报计算,ETGL-DDPG在标准测试中表现优于传统DDPG。该方法通过提高探索效率,在稀疏奖励环境中展示了有效性,为强化学习提供了新工具。
本文使用MuJoCo物理模拟器比较了Q学习、SARSA和DDPG三种方法在连续控制环境中的性能。结果显示Q学习在大量回合中得分超过SARSA,但DDPG在少数回合中表现更好。通过调整超参数可以提高性能并节省时间和资源消耗。作者预期DDPG的新设计将显著提高性能,并希望在充足的时间和计算资源下进一步提升性能。
本文介绍了有效收敛概念和DDPG算法,对比实验发现有效收敛的critic loss波动较大,无效收敛的反而很快收敛到0附近。作者认为这是因为critic和actor相互依赖,所以critic loss不应该收敛很快。
完成下面两步后,将自动完成登录并继续当前操作。