小红花·文摘

本文介绍了在线学习算法SMART，通过单调适应性遗憾追踪实现了相对于领导者跟随策略的表现和其他输入策略的最坏情况保证。该算法证明了SMART政策在任何输入序列上的遗憾在乘法因子e/(e-1)≈1.58的范围内，并且易于实施。文章还提出了SMART的一个修改版本，实现了在FTL和小损失遗憾上的实例最优性。