本研究证明了Thompson采样在强化学习中的贝叶斯后悔限与性能上界,并对时间不均匀强化学习问题中的上界进行了分析。研究结果对环境空间的Kolmogorov l1维度提出了具体限制。
完成下面两步后,将自动完成登录并继续当前操作。