本研究提出了一种基于模型的方法,通过扩展安全探索方法ATACOM,结合可学习的约束,确保长期安全性并处理不确定性。实验结果显示,该方法在最终性能上与当前最先进的方法持平或更优,同时在训练过程中保持更安全的行为。
完成下面两步后,将自动完成登录并继续当前操作。