本文研究了模型预测控制(MPC)与强化学习(RL)的关系,探讨其在马尔可夫决策过程中的应用与优势。提出了一种基于演员-评论家方法的分类框架,并展示了如何利用MPC的在线优化提升政策性能。
本文研究了在线优化中的非凸目标函数,提出了改进的Frank-Wolfe算法和在线随机梯度上升算法,并证明了它们在遗憾界限上的有效性。研究还扩展到弱次模函数,展示了算法在非凸规划和子模函数优化中的应用效果。
该研究探讨了高维非凸优化中的算法复杂性,提出了无导数算法和基于函数值的优化方法,分析了收敛速率及其在动态环境中的在线优化表现和复杂度自适应性。
本文提出了两种新的谱图神经网络模型:FavardGNN和OptBasisGNN,并通过实验验证了其有效性。同时,研究了多项式逼近神经网络(PANN)在隐私保护模型推理中的应用,提出了提高推理准确度的方案。此外,探讨了在线优化问题、动态策略及优化算法,并提出了基于物理知识的模型升级方法,显示出更优的优化效果。
本文提出了针对连续次模函数类的在线优化过程,包括Frank-Wolfe算法的变体和在线随机梯度上升算法。证明了两种算法具有O(T的平方根)的遗憾界,并将结果推广到γ-弱次模函数。演示了算法的效率在几个问题实例上。
完成下面两步后,将自动完成登录并继续当前操作。