小红花·文摘

本文探讨了离线到在线学习中的挑战，提出了一种新算法，结合悲观的下置信界(LCB)和乐观的上置信界(UCB)策略。研究表明，该算法在性能上接近更优的LCB和UCB策略，具有广泛的适用性，可能扩展到多臂强盗问题之外。

BriefGPT - AI 论文速递 ·

本文研究了在线线性优化问题，提出了多种算法以最小化后悔量，包括基于Bregman投影的梯度下降策略和Maximin-LUCB策略。同时探讨了模仿学习中的偏好反馈优势，并提出了基于上置信界的算法，实验证明其优于传统方法。

BriefGPT - AI 论文速递 ·