小红花·文摘

本文探讨了离线到在线学习中的挑战，提出了一种新算法，结合悲观的下置信界(LCB)和乐观的上置信界(UCB)策略。研究表明，该算法在性能上接近更优的LCB和UCB策略，具有广泛的适用性，可能扩展到多臂强盗问题之外。