具有线性函数逼近的时间差学习的统计推断
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本研究解决了马尔可夫决策过程中的价值函数有限样本有效性问题,确保了强化学习的可靠性,提出了高维概率收敛保证及边界,建立了更快的收敛速率,并设计了在线计算的渐近协方差矩阵估计器。
🎯
关键要点
-
本研究解决了马尔可夫决策过程中的价值函数有限样本有效性问题。
-
确保了强化学习的可靠性。
-
提出了一种新颖的高维概率收敛保证及边界。
-
建立了更快的收敛速率。
-
设计了用于在线计算的渐近协方差矩阵估计器。
-
这些结果可为价值函数线性参数构建置信区域,保证有限样本覆盖。
🏷️