小红花·文摘

本文介绍了KeRNS算法，用于处理非静态MDP中的情节强化学习问题。该算法使用基于时间依赖内核的非参数模型，并证明了与状态动作空间的覆盖维度和MDP的总变化量有关的遗憾界。作者还提出了KeRNS的实用实现，并进行了遗憾分析和实验验证。