具有线性函数逼近的时间差学习的统计推断

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本研究解决了马尔可夫决策过程中的价值函数有限样本有效性问题,确保了强化学习的可靠性,提出了高维概率收敛保证及边界,建立了更快的收敛速率,并设计了在线计算的渐近协方差矩阵估计器。

🎯

关键要点

  • 本研究解决了马尔可夫决策过程中的价值函数有限样本有效性问题。
  • 确保了强化学习的可靠性。
  • 提出了一种新颖的高维概率收敛保证及边界。
  • 建立了更快的收敛速率。
  • 设计了用于在线计算的渐近协方差矩阵估计器。
  • 这些结果可为价值函数线性参数构建置信区域,保证有限样本覆盖。
➡️

继续阅读