本文提出了广义安全探索问题,使用元算法MASE解决。该算法在方格世界和Safety Gym基准测试上表现更好,且没有违反任何安全约束。
强化学习代理通过试错探索环境以学习最佳策略,尤其在与人类互动的机器人系统中,安全性至关重要。本文提出将受限强化学习标准化为安全探索的主要形式,并推出Safety Gym基准套件,以评估受限强化学习的研究进展,并对多种受限深度强化学习算法进行基准测试。
完成下面两步后,将自动完成登录并继续当前操作。