小红花·文摘

本文提出了多种改进的上下文强盗算法，包括基于广义线性模型的算法和Doubly-Robust Lasso Bandit算法，旨在提高计算效率和减少遗憾。这些新算法在对抗性环境中表现优越，提供了近似最优的遗憾上界，并为实际应用提供了理论指导。