脱机强化学习的悲观非线性最小二乘值迭代

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

该文介绍了一种离线强化学习方法——悲观非线性最小二乘值迭代(PNLSVI),用于非线性函数逼近。该方法包括方差加权回归、方差估计子程序和基于悲观值迭代的规划阶段。该方法的遗憾界与函数类的复杂性紧密相关,并在针对线性函数逼近的情况下实现极小化的最优实例相关遗憾。

🎯

关键要点

  • 提出了一种离线强化学习方法——悲观非线性最小二乘值迭代(PNLSVI)。
  • PNLSVI用于非线性函数逼近,包含方差加权回归、方差估计子程序和基于悲观值迭代的规划阶段。
  • 该方法的遗憾界与函数类的复杂性紧密相关。
  • 在针对线性函数逼近的情况下,实现极小化的最优实例相关遗憾。
  • 该方法在前期研究基础上扩展到更一般的框架。
➡️

继续阅读