本文探讨了多臂老虎机模型的性能,提出了新的优化算法和改进的序贯停止规则,研究了有限反馈和多智能体环境下的遗憾下界,展示了算法的有效性和性能保证。
本文探讨了多臂赌博机中的遗憾下界问题,提出了基于不同情境的紧密下界,特别是在强可观测无向反馈图和敌对情境下的算法改进。同时,研究了延迟反馈的多臂老虎机问题,提出新算法以降低对上界的要求,并展示了算法在多种应用场景中的有效性。
本文研究了非稳态赌徒问题,即分布保持不变但在未知时间发生改变的情况。通过折扣上限置信区间和滑动窗口上限置信区间算法,得到了后者的上界,并对不优的赌博机被玩的次数期望进行了上界估计。证明了存在性突然性改变时的遗憾下界,并证明了折扣上限置信区间和滑动窗口上限置信区间的匹配下界一致性。
本文研究了多智能体多臂赌博机方法中的遗憾下界,证明了它们的紧密性。当图表现出良好的连通性和奖励是随机分布时,证明了实例相关上界的 O(log T)下界和平均差值独立上界的 sqrt(T)下界。在对抗奖励的假设下,建立了连接图的 O(T^(2/3))下界。当图表现为不连通时,还展示了线性的遗憾下界。
完成下面两步后,将自动完成登录并继续当前操作。