小红花·文摘

本文研究了线性错误赌博机及其学习中的稀疏性，提出了一种新算法并证明其样本复杂度接近最优。同时探讨了在线强化学习中的样本复杂性及算法的上下界，提出了基于特征维度的参数 Q 学习算法，以提高样本效率。