基于自适应离散化的度量空间非周期性强化学习
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文介绍了KeRNS算法,用于处理非静态MDP中的情节强化学习问题。该算法使用基于时间依赖内核的非参数模型,并证明了与状态动作空间的覆盖维度和MDP的总变化量有关的遗憾界。作者还提出了KeRNS的实用实现,并进行了遗憾分析和实验验证。
🎯
关键要点
- 提出了KeRNS算法,用于处理非静态MDP中的情节强化学习问题。
- KeRNS算法使用基于时间依赖内核的非参数模型。
- 证明了遗憾界与状态动作空间的覆盖维度和MDP的总变化量有关。
- 该方法一般化了基于滑动窗口和指数折扣等方法来处理变化环境。
- 提出了KeRNS的实用实现,并进行了遗憾分析和实验验证。
➡️