本文介绍了KeRNS算法,用于处理非静态MDP中的情节强化学习问题。该算法使用基于时间依赖内核的非参数模型,并证明了与状态动作空间的覆盖维度和MDP的总变化量有关的遗憾界。作者还提出了KeRNS的实用实现,并进行了遗憾分析和实验验证。
完成下面两步后,将自动完成登录并继续当前操作。