小红花·文摘

该研究提出了多种新算法，如MAIQL、LPQL和UCWhittle，解决不安定多臂赌博机问题，利用元策略和强化学习实现渐近最优策略。这些算法在动态信道和药物依从性数据等多个领域表现优于现有方法。