小红花·文摘

机器人学中的一个挑战是设计出能在现实世界中实现复杂和灵活行为的稳健策略。一种名为“Deep Model Predictive Optimization”的方法通过学习优化算法来提高控制问题的性能。在四旋翼平衡轨迹跟踪任务中，DMPO在计算预算下提高了性能，并且比基线算法提高了27%和19%。此外，DMPO需要更少的样本和4.3倍的内存，同时在扰动风场中仍然优于基线测试结果。