本研究提出了一种新方法——受限信任区域策略优化(C-TRPO),旨在解决强化学习中的不安全行为问题。C-TRPO通过调整策略空间的几何结构,确保训练过程中的约束得到满足。实验结果表明,该方法在减少约束违规的同时,能够有效最大化奖励。
完成下面两步后,将自动完成登录并继续当前操作。