本文探讨了在未知图和随机干预模型下,如何降低因果强盗算法的悔恨界限。作者提出了一种新算法,量化干预强度对算法表现的影响,强调其在因果推断和决策优化中的重要性。
本文介绍了Thompson采样(TS)算法在多臂赌博问题中的应用,提出了一种新变体$b1$-TS,并分析了其悔恨界限。研究表明,该算法在动态环境中表现优异,适用于更广泛的上下文赌博机设置。
完成下面两步后,将自动完成登录并继续当前操作。