本研究解决了KL正则化上下文强盗的样本复杂度问题,提出的算法实现了$ ilde{O}(rac{1}{ ext{ε}})$的样本复杂度,展示了算法的近似最优性,并扩展到上下文对抗强盗问题。
完成下面两步后,将自动完成登录并继续当前操作。