本研究提出了一种新的稳健策略计算方法,解决了部分可观察马尔可夫决策过程(POMDP)中策略对环境扰动的稳健性问题。通过结合形式化验证与次梯度上升优化,实验结果表明该方法在多个基准测试中展现出更好的稳健性和泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。