改进的无界损失对抗性赌博算法
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该文介绍了UMAB-NN和UMAB-G两种算法,用于解决非负无界损失的对抗性多臂赌博机问题。UMAB-NN实现了自适应和无标度的后悔边界,无需统一探索;UMAB-G则可从任意无界损失中学习。实证评估表明,这两种算法始终优于处理无界损失的所有现有算法。
🎯
关键要点
- 该文介绍了UMAB-NN和UMAB-G两种算法,解决非负无界损失的对抗性多臂赌博机问题。
- UMAB-NN实现了自适应和无标度的后悔边界,无需统一探索。
- UMAB-G可从任意无界损失中学习。
- 分析揭示了MAB问题中正负损失之间的不对称性,并提供了额外的见解。
- 实证评估表明,这两种算法始终优于处理无界损失的所有现有算法。
➡️