本研究提出了一种新方法,通过模仿学习识别安全强化学习中多样化任务的共享约束分布,并根据新任务的风险水平进行调整。实验结果表明,该方法在安全性和成功率上优于传统基准,具有广泛的适用性和实践价值。
完成下面两步后,将自动完成登录并继续当前操作。