小红花·文摘

本文介绍了多种安全强化学习方法，包括可行行动者-评论家算法、RCRL方法和可行策略迭代算法，旨在解决安全约束问题。这些方法在优化代理策略的同时，能够有效满足安全性要求，并在多个基准测试中表现优越。