本研究使用层次学习和规划框架,通过试错和模型生成轨迹的方法,赋予飞行器在未知和部分可观察环境中适应敏捷性的能力。通过在线无模型强化学习和预训练微调奖励机制,在仿真和实际硬件验证中证明了该方法比常数敏捷度基准和替代方法更有效和安全。
该文介绍了一个高效的模型学习和规划框架,适用于具有连续状态和动作空间以及非高斯转移模型的随机域。该框架通过估计局部模型来解决规划问题,专注于最相关的状态和最有价值的动作。理论分析证明该方法有效且渐近最优。实验结果表明该算法在模拟的多模式推动问题上表现出了有效性。
完成下面两步后,将自动完成登录并继续当前操作。