基于数据相关遗憾分析的在线核选择在记忆约束下的学习能力
原文中文,约200字,阅读约需1分钟。发表于: 。在线核选择是在线核方法的基础问题之一。本文研究了在线核选择在内存约束下的问题,通过提供数据相关的上界,展示了在线可学习性、内存约束和数据复杂度之间的权衡关系。我们提出了一种算法框架,针对两类损失函数分别给出了数据相关的上界,并通过理论证明和实证验证,展示了算法性能。
该研究探讨了在未知连续状态和动作的马尔可夫决策过程中,采用非参数高斯过程先验的UCRL和后验抽样算法的在线学习方法,以最小化后悔问题。研究发现,通过对核函数诱导的函数的再生核希尔伯特空间的真实MDP的转移和奖励函数的成员进行变异,可以解决后悔边界问题,并突出了转移和奖励函数对学习性能的影响。