小红花·文摘

本文研究了模型预测控制（MPC）与强化学习（RL）的关系，探讨其在马尔可夫决策过程中的应用与优势。提出了一种基于演员-评论家方法的分类框架，并展示了如何利用MPC的在线优化提升政策性能。

Synthesis of Model Predictive Control and Reinforcement Learning: Survey and Classification

BriefGPT - AI 论文速递 ·

本文研究了在线优化中的非凸目标函数，提出了改进的Frank-Wolfe算法和在线随机梯度上升算法，并证明了它们在遗憾界限上的有效性。研究还扩展到弱次模函数，展示了算法在非凸规划和子模函数优化中的应用效果。

无悔的 M${}^{atural}$ 凹函数最大化：随机赌博算法和对抗完全信息设置的 NP 困难性

BriefGPT - AI 论文速递 ·

该研究探讨了高维非凸优化中的算法复杂性，提出了无导数算法和基于函数值的优化方法，分析了收敛速率及其在动态环境中的在线优化表现和复杂度自适应性。

优化平滑函数所需的比较

BriefGPT - AI 论文速递 ·

本文提出了两种新的谱图神经网络模型：FavardGNN和OptBasisGNN，并通过实验验证了其有效性。同时，研究了多项式逼近神经网络（PANN）在隐私保护模型推理中的应用，提出了提高推理准确度的方案。此外，探讨了在线优化问题、动态策略及优化算法，并提出了基于物理知识的模型升级方法，显示出更优的优化效果。

机器学习优化的正交基分段多项式逼近

BriefGPT - AI 论文速递 ·

本文提出了针对连续次模函数类的在线优化过程，包括Frank-Wolfe算法的变体和在线随机梯度上升算法。证明了两种算法具有O（T的平方根）的遗憾界，并将结果推广到γ-弱次模函数。演示了算法的效率在几个问题实例上。

在线凸优化下的在线次模最大化

BriefGPT - AI 论文速递 ·