小红花·文摘

本研究提出了一种基于深度确定性策略梯度（DDPG）的新算法，用于解决动态金融市场中学习非马尔可夫最优执行策略的问题。该算法通过建模瞬时价格影响，逼近最优策略，适应市场变化，减少人为干预。实验验证了其有效性。