本研究提出了一种从稀疏安全反馈中学习安全度量的方法,解决了安全强化学习中安全定义不明确的问题。通过设计安全模型,估计每个决策步骤对整体安全的影响,实证结果表明其在满足未知安全定义方面的有效性,适用于多种连续控制任务。
完成下面两步后,将自动完成登录并继续当前操作。