具有线性函数逼近的时间差学习的统计推断
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本研究解决了马尔可夫决策过程中的价值函数有限样本有效性问题,确保了强化学习的可靠性,提出了高维概率收敛保证及边界,建立了更快的收敛速率,并设计了在线计算的渐近协方差矩阵估计器。
🎯
关键要点
- 本研究解决了马尔可夫决策过程中的价值函数有限样本有效性问题。
- 确保了强化学习的可靠性。
- 提出了一种新颖的高维概率收敛保证及边界。
- 建立了更快的收敛速率。
- 设计了用于在线计算的渐近协方差矩阵估计器。
- 这些结果可为价值函数线性参数构建置信区域,保证有限样本覆盖。
➡️