一种广义 Borda 准则下最优和自适应的非平稳对决多臂老虎机算法

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究提出了两个算法来解决dueling bandit问题,一个适用于少量的arms,另一个在大规模问题上表现更好。算法旨在最小化与Copeland winner相关的遗憾,并提供了理论结果以界定它们所积累的遗憾。这些结果改善了现有结果,没有限制性假设,提供了最佳结果。

🎯

关键要点

  • 研究提出了两个算法以解决dueling bandit问题。
  • 算法旨在最小化与Copeland winner相关的遗憾。
  • 第一个算法CCB适用于少量的arms。
  • 第二个算法SCB在大规模问题上表现更好。
  • 研究提供了理论结果以界定CCB和SCB所积累的遗憾。
  • 这些结果改善了现有结果,没有限制性假设。
  • 提供了O(K log T)的最佳结果。
➡️

继续阅读