该论文提出了一种基于在线凸优化的强化学习新框架,探讨了镜像下降及相关算法,并提出了一种新的类似于梯度下降的迭代方法。抛物线梯度强化学习法比常规TD学习更为普适。同时,还提出了一种新型的稀疏镜像下降强化学习方法,具有显著的计算优势。
完成下面两步后,将自动完成登录并继续当前操作。