小红花·文摘

该文介绍了UMAB-NN和UMAB-G两种算法，用于解决非负无界损失的对抗性多臂赌博机问题。UMAB-NN实现了自适应和无标度的后悔边界，无需统一探索；UMAB-G则可从任意无界损失中学习。实证评估表明，这两种算法始终优于处理无界损失的所有现有算法。