带专家建议的强盗问题的改进遗憾界限
原文中文,约300字,阅读约需1分钟。发表于: 。通过受限反馈模型,本研究提供了关于 “专家建议问题” 的最坏情况后悔度的新的下界和上界,其中下界为 O (sqrt (KT ln (N/K))),上界与之相匹配,并改进了现有最佳下界 sqrt (KT (ln N) / (ln K))。同时,对于标准反馈模型,本研究提供了一种新的基于实例的上界,该上界取决于专家之间的一致性,并相比之前的结果提供了对数级的改进。
本文研究了多智能体多臂赌博机方法的遗憾下界,证明了在不同情景下的紧密性。当图表现出良好的连通性和奖励是随机分布时,遗憾下界为O(log T)和sqrt(T)。在对抗奖励的假设下,遗憾下界为O(T^(2/3))。当图不连通时,遗憾下界为线性。与以前的研究相比,本文全面研究了这些情景下的紧密下界。