本研究提出了一种新方法,通过模仿学习识别共享约束分布,解决了安全强化学习中预定义约束函数适用性差的问题。实验结果表明,该方法在复杂任务中在安全性和样本效率上优于基准方法,具有广泛的适用性。
完成下面两步后,将自动完成登录并继续当前操作。