本研究提出了一种新的离散时间高斯过程混合模型(MiDiGap),用于机器人策略学习。该模型仅需五个演示和摄像头观察即可快速学习,在多项复杂任务中表现出色,显著提高了策略成功率和样本效率,具有重要的实用价值。
本文提出了两种新的算法,专为离散时间确定有限时域非线性最优控制问题或轨迹优化问题而设计。这些算法受到了概率最优控制理论的启发,将最优控制重新制定为概率推断问题。通过应用这些算法,得到的概率策略的固定点迭代收敛于确定性最优策略。这些算法在结构上与微分动态规划算法和使用sigma点方法避免直接梯度评估的方法最为接近。这些算法在迭代中改善了探索和利用之间的平衡,实现了更好的数值稳定性和加速收敛。
本文提出了一种基于数据驱动的方法,利用Koopman嵌入将原始状态空间提升到更高的线性流形,从而学习非线性系统的稳定模型。该方法在离散时间下能够学习所有非线性收缩模型,并通过直接参数化稳定线性系统来简化计算。在模拟系统上验证了该方法,并分析了与替代方案相比的优势。
完成下面两步后,将自动完成登录并继续当前操作。