该论文探讨了在随机和部分未知环境中控制器综合的问题,提出了一种基于安全的马尔可夫决策过程的解决方案。研究了多种安全强化学习方法,强调安全约束与强化学习公式的分离,从而降低计算要求。通过引入安全状态和新的优化方法,提升了学习性能和约束满足能力,并验证了在多种环境中的有效性。
完成下面两步后,将自动完成登录并继续当前操作。