缓解复杂Q函数中确定性策略梯度的次优性

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本研究提出了一种新的演员-评论家算法,通过在动作空间中使用两点随机梯度估计的零阶近似,解决了确定性策略梯度算法在连续系统控制中的不准确问题。实验表明,该算法性能优于现有方法。

🎯

关键要点

  • 本研究提出了一种新的演员-评论家算法。
  • 该算法通过两点随机梯度估计的零阶近似解决了确定性策略梯度算法的不准确问题。
  • 研究重点在于控制连续系统时的评论家价值估计导数依赖问题。
  • 实证结果表明,该算法的性能优于现有方法。
➡️

继续阅读