本文研究了多臂老虎机问题的性质与限制,分析了不同算法在减少后悔方面的表现,提出了一种基于隐式探索的损失估计策略和渐近最优算法,以优化探索与利用的平衡,尤其是在具有线性约束的情况下。通过数值实验验证了新算法的有效性。
完成下面两步后,将自动完成登录并继续当前操作。