本研究提出Marvel框架,通过价值预对齐和自适应PID控制,解决在线安全强化学习中的高成本和风险问题,提升奖励最大化和安全约束性能,为实用安全RL提供新方法。
完成下面两步后,将自动完成登录并继续当前操作。