基于专家建议的留投区随机选择问题
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
研究者提出了一种新的算法CBA,用于改善经典Exp4算法的奖励界限。初步实验表明CBA在现有的bandit算法上有所改进。
🎯
关键要点
-
研究者提出了一种新的算法CBA,用于改善经典Exp4算法的奖励界限。
-
CBA算法利用学习者选择不参与游戏的假设,显著改善了奖励界限。
-
首次在普通置信度评估预测器上实现了累积期望奖励的界限。
-
在专家预测器的特殊情况下,CBA实现了新的奖励界限,显著改善了以前的结果。
-
讨论了在有限度量空间中学习球的并集作为应用示例。
-
CBA的高效实现将运行时间从二次降低到几乎线性。
-
初步实验表明CBA在现有的bandit算法上有所改进。
➡️