强化学习中使用的近似本地空间的收敛速率
原文中文,约300字,阅读约需1分钟。发表于: 。该论文研究了出现在再生核希尔伯特空间 (RKHS) H (Ω) 的一组值函数逼近的收敛速度。通过在特定类别的本地空间中建立一个最优控制问题,得出了政策迭代中出现的离线逼近的强收敛速度。利用有限维逼近空间 H_N 的幂函数 Pwr_{H,N},导出了值函数逼近误差的显式上界,这些上界具有几何性质,对于值函数逼近的收敛性有一定的改进。
该文介绍了一种在线学习算法,通过正则化路径的顺序随机逼近,收敛于再生核希尔伯特空间中的回归函数。通过选择增益或步长序列,可以生产出批量学习的最佳已知强收敛速率,并给出了弱收敛速率。通过偏差-方差分解,证明偏差包括逼近误差和漂移误差,方差来自样本误差。上述速率通过偏差和方差之间的最佳折衷得到。