该文介绍了UMAB-NN和UMAB-G两种算法,用于解决非负无界损失的对抗性多臂赌博机问题。UMAB-NN实现了自适应和无标度的后悔边界,无需统一探索;UMAB-G则可从任意无界损失中学习。实证评估表明,这两种算法始终优于处理无界损失的所有现有算法。
完成下面两步后,将自动完成登录并继续当前操作。