小红花·文摘

本文介绍了一系列针对对抗性多臂赌博问题的新算法，利用Tsallis熵进行正则化，并证明了其最小极大后悔度。研究涵盖多种分布的扰动方法，提出了新的算法框架和自适应学习率，探讨了算法的最优性及实际应用表现。