小红花·文摘 - 小红花技术领袖俱乐部

本文提出了广义安全探索问题，使用元算法MASE解决。该算法在方格世界和Safety Gym基准测试上表现更好，且没有违反任何安全约束。

强化学习中的安全探索：广义形式与算法

BriefGPT - AI 论文速递 ·

深度强化学习中的安全探索基准测试

深度强化学习中的安全探索基准测试

OpenAI ·