改进的无界损失对抗性赌博算法

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该文介绍了UMAB-NN和UMAB-G两种算法,用于解决非负无界损失的对抗性多臂赌博机问题。UMAB-NN实现了自适应和无标度的后悔边界,无需统一探索;UMAB-G则可从任意无界损失中学习。实证评估表明,这两种算法始终优于处理无界损失的所有现有算法。

🎯

关键要点

  • 该文介绍了UMAB-NN和UMAB-G两种算法,解决非负无界损失的对抗性多臂赌博机问题。
  • UMAB-NN实现了自适应和无标度的后悔边界,无需统一探索。
  • UMAB-G可从任意无界损失中学习。
  • 分析揭示了MAB问题中正负损失之间的不对称性,并提供了额外的见解。
  • 实证评估表明,这两种算法始终优于处理无界损失的所有现有算法。
➡️

继续阅读