小红花·文摘

本研究提出了一种新的稳健策略计算方法，解决了部分可观察马尔可夫决策过程（POMDP）中策略对环境扰动的稳健性问题。通过结合形式化验证与次梯度上升优化，实验结果表明该方法在多个基准测试中展现出更好的稳健性和泛化能力。