小红花·文摘

本文探讨了连续控制中动作空间离散化对策略优化的影响，提出了基于神经网络的离散化建模、随机策略表示和带参数的深度 Q 网络（P-DQN）框架等新方法。这些方法在高维连续控制任务中显著提升了性能，并解决了局部最优问题。同时，研究还涉及安全强化学习中的策略分叉现象及其优化算法。