小红花·文摘

本研究结合深度Q学习和深度确定性策略梯度，解决了连续状态和动作空间学习的不足。通过引入优先级和参数噪声，显著提升了模型的鲁棒性和性能，为深度强化学习提供了重要参考。