小红花·文摘

本文研究了基于核的赌博机和强化学习，提出了一种改进的UCB算法，解决了在线置信区间问题并降低了后悔度。通过高斯过程和多种学习算法分析误差性能，证明了GP-UCB算法在大多数核函数上具有最优回报，并展示了新策略在实际应用中的优势。