本文探讨了连续控制中动作空间离散化对策略优化的影响,提出了基于神经网络的离散化建模、随机策略表示和带参数的深度 Q 网络(P-DQN)框架等新方法。这些方法在高维连续控制任务中显著提升了性能,并解决了局部最优问题。同时,研究还涉及安全强化学习中的策略分叉现象及其优化算法。
完成下面两步后,将自动完成登录并继续当前操作。