本研究探讨推荐系统中探索与利用的权衡,分析因信息利用不均衡导致的嫉妒效应。提出多臂赌博机模型,以优化社会结果,平衡效率与公平,为改善推荐系统的社会影响提供新视角。
本研究提出COLDB和CONDB算法,克服传统多臂赌博机在用户反馈处理中的局限性,实现基于偏好反馈的协作决策,有效分组用户,证明其在推荐系统中的重要性。
本研究比较了休眠多臂赌博机中的拉格朗日指数策略(LIP)与惠特尔指数策略(WIP)的性能。结果表明,LIP在WIP表现不佳时依然表现良好,并且显著降低了内存需求。此外,研究还分析了重启模型的拉格朗日指数,并提供了均匀赌博机渐近最优性的新证明。
本研究综述了人工智能中强化学习的赌徒问题,重点分析随机多臂和连续臂赌博机模型,比较频率主义与贝叶斯算法,探讨探索与利用的权衡,以及$K$臂上下文赌博机与SCAB的关系,强调最新进展与挑战。
本研究提出了一种可随时停止的顺序减半算法,解决了传统蒙特卡洛树搜索在根节点应用多臂赌博机策略时的简单遗憾最小化问题。实验结果表明,该方法在多臂赌博机和棋盘游戏中表现优异,具备实用性和性能潜力。
本文全面研究了多智能体多臂赌博机在不同情境下的遗憾下界,证明了其紧密性。在良好连通性和随机奖励下,得到了实例相关上界为O(log T)和平均差值独立上界为sqrt(T)。在对抗奖励下,建立了O(T^(2/3))的下界。不连通图则表现出线性遗憾下界。
研究发现,大型语言模型在多臂赌博机环境中探索能力有限,未经训练干预难以稳定探索。在复杂环境中,需要算法干预才能做出理想决策。
本研究在多臂赌博机环境中,通过知识传递提升在线多任务学习性能。提出了一种TS算法,经验分析显示其接近最优。在合成数据评估中,该算法优于基准和UCB算法。
为了解决Retrieval-Augmented Generation中的超参数优化和在线自适应的挑战,研究者提出了AutoRAG-HP框架。该框架将超参数调整问题建模为在线多臂赌博机问题,并引入了一种高效探索大搜索空间的新型两级分层多臂赌博机方法。实验结果表明,基于MAB的在线学习方法可以在具有突出的梯度搜索空间的情况下,仅使用Grid Search方法所需的API调用的约20%,实现Recall@5约0.8的结果。在更具挑战性的优化场景中,所提出的分层多臂赌博机方法优于其他基准方法。
本文介绍了一种基于多臂赌博机的乐观方法,称之为多目标同时乐观优化(MO-SOO)。该算法通过结合多个多臂赌博机在多目标问题的可行决策空间中建立分层结构,以识别帕累托最优解。在 300 个双目标基准问题中,与三个随机算法进行比较,MO-SOO 表现出与顶尖随机算法一致的性能,即 SMS-EMOA 算法。
完成下面两步后,将自动完成登录并继续当前操作。