小红花·文摘

本研究提出了一种新方法，通过模仿学习识别共享约束分布，解决了安全强化学习中预定义约束函数适用性差的问题。实验结果表明，该方法在复杂任务中在安全性和样本效率上优于基准方法，具有广泛的适用性。