小红花·文摘

该文介绍了一个新的强化学习框架，用于在随机环境中实现安全约束。该算法通过最小化违规行为来保持持续的安全特性，并基于可达性估计来优化该框架。在多个安全强化学习环境中进行评估，结果显示了在提高奖励性能和安全性方面的优势。