延迟作为多臂赌博问题中的收益
原文中文,约1800字,阅读约需5分钟。发表于: 。本研究探讨了经典随机多臂赌博问题(MAB)的一个变体,其中代理所获得的收益(成本或奖励)是延迟的,并且与延迟的大小直接相关。我们首次考虑了延迟作为成本的情况,证明了最佳遗憾的标度为 $\sum_{i:\Delta_i > 0}\frac{\log T}{\Delta_i} + d^*$,这表明在成本场景下的改进更为显著,并提供了理论与实证评估支持。
本研究探讨了经典随机多臂赌博问题的一个变体,其中代理所获得的收益是延迟的,并且与延迟的大小直接相关。研究证明了在成本场景下的改进更为显著,并提供了理论与实证评估支持。