该论文探讨了贝叶斯全局优化中的多臂赌博问题,提出了基于高斯过程的GP-BUCB算法,证明其累积遗憾仅增加一个常数因子,并在实际应用中验证了其有效性。此外,研究还涉及带有Bandit反馈的序贝叶斯优化,提出了新算法及其遗憾界,展示了算法在合成和实际数据上的优越性能。
本文讨论了因果系统中的线性结构方程模型及其在模型波动下的应用,提出了优化累积遗憾的算法,研究了因果强化学习和上下文线性赌博机问题,并开发了多种算法以提高性能和减少后悔度。
本文提出了一种算法,在因果系统中的线性结构方程模型中实现几乎最优的累积遗憾,即使在更广泛的模型波动下也能保持次线性遗憾。同时,讨论了连续干预的序贯设计对累积遗憾的稳健性。
完成下面两步后,将自动完成登录并继续当前操作。