基于专家建议的留投区随机选择问题

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

研究者提出了一种新的算法CBA,用于改善经典Exp4算法的奖励界限。初步实验表明CBA在现有的bandit算法上有所改进。

🎯

关键要点

  • 研究者提出了一种新的算法CBA,用于改善经典Exp4算法的奖励界限。

  • CBA算法利用学习者选择不参与游戏的假设,显著改善了奖励界限。

  • 首次在普通置信度评估预测器上实现了累积期望奖励的界限。

  • 在专家预测器的特殊情况下,CBA实现了新的奖励界限,显著改善了以前的结果。

  • 讨论了在有限度量空间中学习球的并集作为应用示例。

  • CBA的高效实现将运行时间从二次降低到几乎线性。

  • 初步实验表明CBA在现有的bandit算法上有所改进。

➡️

继续阅读