小红花·文摘

本文探讨了强化学习中的安全性问题，提出了广义安全探索（GSE）及其解决方案MASE，结合强化学习与不确定性量化器，优化策略以确保安全。研究介绍了Safety-Gymnasium环境和安全策略优化算法库，促进安全强化学习的评估与应用。通过新架构和自适应技术，显著提高了代理在新任务中的安全性，减少了安全违规。

安全和模型无关强化学习的渐进保障

BriefGPT - AI 论文速递 ·

本文提出了广义安全探索问题，使用元算法MASE解决。该算法在方格世界和Safety Gym基准测试上表现更好，且没有违反任何安全约束。

强化学习中的安全探索：广义形式与算法

BriefGPT - AI 论文速递 ·