本文讨论了因果系统中的线性结构方程模型及其在模型波动下的应用,提出了优化累积遗憾的算法,研究了因果强化学习和上下文线性赌博机问题,并开发了多种算法以提高性能和减少后悔度。
本文提出了一种算法,在因果系统中的线性结构方程模型中实现几乎最优的累积遗憾,即使在更广泛的模型波动下也能保持次线性遗憾。同时,讨论了连续干预的序贯设计对累积遗憾的稳健性。
完成下面两步后,将自动完成登录并继续当前操作。