小红花·文摘

本文研究了多臂老虎机问题的性质与限制，分析了不同算法在减少后悔方面的表现，提出了一种基于隐式探索的损失估计策略和渐近最优算法，以优化探索与利用的平衡，尤其是在具有线性约束的情况下。通过数值实验验证了新算法的有效性。