本文探讨了强化学习中的安全性问题,提出了广义安全探索(GSE)及其解决方案MASE,结合强化学习与不确定性量化器,优化策略以确保安全。研究介绍了Safety-Gymnasium环境和安全策略优化算法库,促进安全强化学习的评估与应用。通过新架构和自适应技术,显著提高了代理在新任务中的安全性,减少了安全违规。
本文提出了广义安全探索问题,使用元算法MASE解决。该算法在方格世界和Safety Gym基准测试上表现更好,且没有违反任何安全约束。
完成下面两步后,将自动完成登录并继续当前操作。