该研究提出了一种新的期望最大化方法,从概率推理的角度解决了安全增强学习问题,实现了更稳定和更高效的学习表现。在连续机器人任务的实验中,取得了显著的约束满足性能和样本效率提升。
完成下面两步后,将自动完成登录并继续当前操作。