本研究提出了一种新的稳健策略计算方法,解决了部分可观察马尔可夫决策过程(POMDP)中策略对环境扰动的稳健性问题。通过结合形式化验证与次梯度上升优化,实验结果表明该方法在多个基准测试中展现出更好的稳健性和泛化能力。
机器人学中的一个挑战是设计出能在现实世界中实现复杂和灵活行为的稳健策略。一种名为“Deep Model Predictive Optimization”的方法通过学习优化算法来提高控制问题的性能。在四旋翼平衡轨迹跟踪任务中,DMPO在计算预算下提高了性能,并且比基线算法提高了27%和19%。此外,DMPO需要更少的样本和4.3倍的内存,同时在扰动风场中仍然优于基线测试结果。
完成下面两步后,将自动完成登录并继续当前操作。