小红花·文摘

本文研究了强化学习中的安全探索问题，提出了多种方法（如shield和PLPG）以确保代理人安全操作并提高性能。实验结果表明，这些方法有效提高了收敛速度和最终表现，同时保障了学习和执行阶段的安全性。