小红花·文摘

本研究提出了一种基于模型的安全强化学习方法，扩展了ATACOM安全探索，结合可学习约束，以确保长期安全性并处理不确定性。实验结果表明，该方法在性能上与先进技术相当，同时训练过程更为安全。