本研究提出了一种高效的状态表征学习方法,旨在解决安全强化学习中探索与安全约束的平衡问题。通过自编码器和对比学习,显著提升了稀疏奖励环境中的探索效率,同时确保了安全性。
完成下面两步后,将自动完成登录并继续当前操作。