小红花·文摘

本研究提出了一种从稀疏安全反馈中学习安全度量的方法，解决了安全强化学习中安全定义不明确的问题。通过设计安全模型，估计每个决策步骤对整体安全的影响，实证结果表明其在满足未知安全定义方面的有效性，适用于多种连续控制任务。