小红花·文摘

本研究解决了KL正则化上下文强盗的样本复杂度问题，提出的算法实现了$ ilde{O}(rac{1}{ ext{ε}})$的样本复杂度，展示了算法的近似最优性，并扩展到上下文对抗强盗问题。