小红花·文摘

该研究提出了一种新的期望最大化方法，从概率推理的角度解决了安全增强学习问题，实现了更稳定和更高效的学习表现。在连续机器人任务的实验中，取得了显著的约束满足性能和样本效率提升。