本文研究了在线线性优化问题,提出了多种算法以最小化后悔量,包括基于Bregman投影的梯度下降策略和Maximin-LUCB策略。同时探讨了模仿学习中的偏好反馈优势,并提出了基于上置信界的算法,实验证明其优于传统方法。
完成下面两步后,将自动完成登录并继续当前操作。