本研究提出了一种新的离线安全强化学习框架FASP,解决了现有方法短期安全性不足的问题。通过汉密尔顿-雅可比分析生成安全标签,确保高效采样和长期安全保障,实验结果表明其表现优异。
完成下面两步后,将自动完成登录并继续当前操作。