小红花·文摘

本研究证明了Thompson采样在强化学习中的贝叶斯后悔限与性能上界，并对时间不均匀强化学习问题中的上界进行了分析。研究结果对环境空间的Kolmogorov l1维度提出了具体限制。