实例最优在线学习的 SMART 方法
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了一种在线学习算法 —— 通过单调适应性遗憾追踪(SMART)进行切换,它适应数据并实现了在每个输入序列上相对于领导者跟随(FTL)策略的表现和任何其他输入策略的最坏情况保证同时有效的遗憾,通过我们的算法,我们证明 SMART 政策在任何输入序列上的遗憾在与 FTL 获得的遗憾和给定最坏情况策略保证的遺憾上都在乘法因子 e/(e-1)≈1.58...
本文介绍了在线学习算法SMART,通过单调适应性遗憾追踪实现了相对于领导者跟随策略的表现和其他输入策略的最坏情况保证。该算法证明了SMART政策在任何输入序列上的遗憾在乘法因子e/(e-1)≈1.58的范围内,并且易于实施。文章还提出了SMART的一个修改版本,实现了在FTL和小损失遗憾上的实例最优性。