本文提出了广义安全探索(GSE)问题,并使用元算法MASE进行解决。该算法结合了强化学习与不确定性量化,确保安全性并对不安全的探索进行惩罚。MASE在优化策略时高概率地保证不违反安全约束,并在方格世界和Safety Gym基准测试中优于现有算法。
本文提出了广义安全探索问题,使用元算法MASE解决。该算法在方格世界和Safety Gym基准测试上表现更好,且没有违反任何安全约束。
完成下面两步后,将自动完成登录并继续当前操作。