本文介绍了KeRNS算法,用于处理非静态MDP中的情节强化学习问题。该算法使用基于时间依赖内核的非参数模型,并证明了与状态动作空间的覆盖维度和MDP的总变化量有关的遗憾界。作者还提出了KeRNS的实用实现,并进行了遗憾分析和实验验证。
Adam是一种用于基于梯度的随机目标函数优化的算法,易于实现、计算效率高、占用内存少,适合在数据和/或参数方面比较大的问题。实证结果表明Adam在实践中效果良好,并且与其他随机优化方法相比具有优势。同时,还讨论了一种基于无穷范数的Adam变体AdaMax。该算法的理论收敛性质被分析,并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。
Adam是一种用于基于梯度的随机目标函数优化的算法,易于实现、计算效率高、占用内存少,适合在数据和/或参数方面比较大的问题。同时,还讨论了一种基于无穷范数的Adam变体AdaMax。该算法的理论收敛性质被分析,并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。
该文介绍了一种离线强化学习方法——悲观非线性最小二乘值迭代(PNLSVI),用于非线性函数逼近。该方法包括方差加权回归、方差估计子程序和基于悲观值迭代的规划阶段。该方法的遗憾界与函数类的复杂性紧密相关,并在针对线性函数逼近的情况下实现极小化的最优实例相关遗憾。
本文提出了针对连续次模函数类的在线优化过程,包括Frank-Wolfe算法的变体和在线随机梯度上升算法。证明了两种算法具有O(T的平方根)的遗憾界,并将结果推广到γ-弱次模函数。演示了算法的效率在几个问题实例上。
完成下面两步后,将自动完成登录并继续当前操作。