实例最优在线学习的 SMART 方法

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了在线学习算法SMART,通过单调适应性遗憾追踪实现了相对于领导者跟随策略的表现和其他输入策略的最坏情况保证。该算法证明了SMART政策在任何输入序列上的遗憾在乘法因子e/(e-1)≈1.58的范围内,并且易于实施。文章还提出了SMART的一个修改版本,实现了在FTL和小损失遗憾上的实例最优性。

🎯

关键要点

  • 介绍了一种在线学习算法SMART,通过单调适应性遗憾追踪实现性能保证。

  • SMART算法在任何输入序列上的遗憾在乘法因子e/(e-1)≈1.58的范围内。

  • SMART算法易于实施,适应数据并有效保证遗憾。

  • 提出了SMART的修改版本,将FTL与小损失算法相结合,实现实例最优性。

➡️

继续阅读