本研究提出了一种基于深度确定性策略梯度(DDPG)的新算法,用于解决动态金融市场中学习非马尔可夫最优执行策略的问题。该算法通过建模瞬时价格影响,逼近最优策略,适应市场变化,减少人为干预。实验验证了其有效性。
完成下面两步后,将自动完成登录并继续当前操作。