该文章介绍了管理基于模型的强化学习中风险的方法,包括概率安全约束、不确定性处理和随机神经网络的平衡。实验证明,将不确定性分离对于在不确定和安全关键的控制环境中使用数据驱动的MPC方法表现良好是至关重要的。
该文介绍了一种基于模型的强化学习中的风险管理方法,使用概率安全约束、乐观和悲观以及随机神经网络的平衡来处理不确定性。实验证明,该方法在数据驱动的 MPC 方法中表现良好。
完成下面两步后,将自动完成登录并继续当前操作。