马尔可夫链中心极限定理的收敛速度及其在 TD 学习中的应用
原文中文,约300字,阅读约需1分钟。发表于: 。使用 Stein's 方法证明向量值鞅差的非渐近中心极限定理,并使用泊松方程将结果推广到马尔可夫链的函数领域。然后证明这些结果可应用于建立基于平均的时序差分(TD)学习的非渐近中心极限定理。
该研究提出了一种在高维环境下获得中心极限定理(CLT)收敛速率的新方法,并应用该方法得到了交通距离和熵的新界限。通过推导对于有界随机向量的二次Wasserstein运输距离收敛的最佳界限,以及一般对数凹随机向量的信息熵CLT的非渐近收敛速度,给出了在对数凹性假设下的交通距离收敛的改进界限。该方法基于鞅嵌入,具体地,基于Skorokhod嵌入。