本文提出了两种新的算法,专为离散时间确定有限时域非线性最优控制问题或轨迹优化问题而设计。这些算法受到了概率最优控制理论的启发,将最优控制重新制定为概率推断问题。通过应用这些算法,得到的概率策略的固定点迭代收敛于确定性最优策略。这些算法在结构上与微分动态规划算法和使用sigma点方法避免直接梯度评估的方法最为接近。这些算法在迭代中改善了探索和利用之间的平衡,实现了更好的数值稳定性和加速收敛。
该文介绍了一种新的概率图模型——概率关系网络,可以直接捕捉结构学习过程中的方向性循环依赖关系。该模型支持从观测数据中学习,并支持概率推断,在数据分析、专家决策和设计应用中具有潜在的用途。
完成下面两步后,将自动完成登录并继续当前操作。