小红花·文摘

本研究提出了一种基于有限时域梯度估计的安全强化学习方法（CGPO），有效解决了现有方法在有限时域非折扣约束估计中的问题。研究表明，该方法能够有效估计约束变化，确保安全策略更新的效率和可行性。