小红花·文摘

本研究提出Marvel框架，通过价值预对齐和自适应PID控制，解决在线安全强化学习中的高成本和风险问题，提升奖励最大化和安全约束性能，为实用安全RL提供新方法。