小红花·文摘

该论文探讨了在随机和部分未知环境中控制器综合的问题，提出了一种基于安全的马尔可夫决策过程的解决方案。研究了多种安全强化学习方法，强调安全约束与强化学习公式的分离，从而降低计算要求。通过引入安全状态和新的优化方法，提升了学习性能和约束满足能力，并验证了在多种环境中的有效性。