历史平均相关成本的在线决策

在许多在线顺序决策场景中，学习者的选择不仅影响当前的成本，还影响未来的成本。本文研究了一种特殊情况，其中成本依赖于过去决策的时间平均值，我们提出了一种新颖的算法 Follow-The-Adaptively-Regularized-Leader (FTARL)，该算法通过历史决策来动态调整正则化项，从而在满足阶段性约束的同时确保最小遗憾值。我们还讨论了历史视野长度对于无遗憾算法设计的影响，并在完全学习视野下给出了一些不可能性的结果。

在在线顺序决策中，选择不仅影响当前成本，还影响未来成本。研究了成本依赖于过去决策的情况，提出了一种新算法FTARL，通过调整正则化项来满足阶段性约束并确保最小遗憾值。讨论了历史视野长度对无遗憾算法设计的影响，并给出了一些不可能性的结果。