小红花·文摘

本文探讨了深度强化学习在连续动作空间中的应用，提出了多种算法以提高样本效率和学习性能，包括基于确定性策略的演员-评论家模型、参数噪声结合方法及多智能体协作学习。这些方法在多种控制任务中表现优越，推动了深度Q学习的发展。