追逐长期约束的凸函数
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了一种在线凸优化算法,考虑具有对抗性时变约束的情景。通过线性优化预言机(LOO)访问约束集合,保证在长度为T的序列上,相对于损失函数产生的后悔为$O(T^{3/4})$,对约束的违反为$O(T^{7/8})$。还提出了一种更高效的算法,只需对软约束进行一阶预言机访问,并在整个序列上获得类似的边界。将后者扩展到强化学习场景,并在期望上获得类似的边界。
🎯
关键要点
-
本文介绍了一种在线凸优化算法,考虑具有对抗性时变约束的情景。
-
算法通过线性优化预言机(LOO)访问约束集合,保证在长度为T的序列上,相对于损失函数产生的后悔为O(T^{3/4})。
-
对于约束的违反,算法的界限为O(T^{7/8}),适用于序列中的任何区间。
-
提出了一种更高效的算法,仅需对软约束进行一阶预言机访问,获得类似的边界。
-
该算法被扩展到强化学习场景,并在期望上获得类似的边界。
➡️