本文研究了线性错误赌博机及其学习中的稀疏性,提出了一种新算法并证明其样本复杂度接近最优。同时探讨了在线强化学习中的样本复杂性及算法的上下界,提出了基于特征维度的参数 Q 学习算法,以提高样本效率。
完成下面两步后,将自动完成登录并继续当前操作。