小红花·文摘

本研究探讨推荐系统中探索与利用的权衡，分析因信息利用不均衡导致的嫉妒效应。提出多臂赌博机模型，以优化社会结果，平衡效率与公平，为改善推荐系统的社会影响提供新视角。

嫉妒探索与利用

BriefGPT - AI 论文速递 ·

本研究提出COLDB和CONDB算法，克服传统多臂赌博机在用户反馈处理中的局限性，实现基于偏好反馈的协作决策，有效分组用户，证明其在推荐系统中的重要性。

Online Clustering of Adversarial Bandits

BriefGPT - AI 论文速递 ·

本研究综述了人工智能中强化学习的赌徒问题，重点分析随机多臂和连续臂赌博机模型，比较频率主义与贝叶斯算法，探讨探索与利用的权衡，以及$K$臂上下文赌博机与SCAB的关系，强调最新进展与挑战。

A Selective Review of Gambling Problems in Artificial Intelligence from a Statistical Perspective

BriefGPT - AI 论文速递 ·

本研究提出了一种可随时停止的顺序减半算法，解决了传统蒙特卡洛树搜索在根节点应用多臂赌博机策略时的简单遗憾最小化问题。实验结果表明，该方法在多臂赌博机和棋盘游戏中表现优异，具备实用性和性能潜力。

Anytime Sequential Halving in Monte Carlo Tree Search

BriefGPT - AI 论文速递 ·

本文研究了分散式多臂赌博机问题，提出了优化秩序和公平性的政策，应用于认知无线电和通信系统等领域。通过多种算法解决智能体间的合作决策，优化遗憾度和通信复杂度，验证了算法的有效性和鲁棒性。

QuACK：一种多用途队列算法用于合作 $k$-臂赌博机

BriefGPT - AI 论文速递 ·

本研究提出了一种基于多臂赌博机算法的动态学习率方法（LRRL），旨在优化深度强化学习中的学习率选择。该方法根据代理的训练表现动态调整学习率，显著提升了深度强化学习算法的性能，尤其在非平稳目标函数下表现突出。

Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach

BriefGPT - AI 论文速递 ·

本文探讨了多臂赌博机（MAB）算法在5G网络资源配置中的应用，重点关注小型基站规划和能源效率。研究利用强化学习解决频谱稀缺问题，提出了周期波动策略和反干扰策略，展现出优越的性能。此外，基于自编码器的框架和多智能体强化学习算法也被应用于提升系统能效。

PAMLR：一种基于被动-主动多臂沙拉的LoRa信道分配解决方案

BriefGPT - AI 论文速递 ·

本文提出了一种在线动态索引策略KL-UCB算法，针对随机赌博问题进行了研究，证明了其优越性和适用性。通过比较实验，KL-UCB在短时间内表现优于其他算法，并探讨了多臂赌博机的复杂操作及其奖励函数，展示了在实际应用中的优越性能。

利用相邻相似性通过奖励样本转移提升多臂老虎机任务

BriefGPT - AI 论文速递 ·

本文研究多臂赌博机问题及其在用户与资源匹配中的应用，提出多种算法以提高决策效率和降低错误率。研究内容包括众包数据质量、在线配对平台、公平性和贝叶斯博弈均衡，探讨不同条件下的最优策略和算法改进，旨在优化挖矿收益和学习效率。

带相关性的先知不等式的竞争复杂性

BriefGPT - AI 论文速递 ·

本文探讨了Thompson Sampling算法在序贯决策中的应用，尤其是在多臂赌博机问题中的表现。该算法通过贝叶斯方法实现了对数级别的预期遗憾，并在不同环境下进行了多种改进和扩展，展示了其在探索与开发权衡中的有效性和鲁棒性。

通过信息松弛改进预算多臂赌博机中的汤普森采样

BriefGPT - AI 论文速递 ·

本文研究了多臂赌博机问题，提出了一种新算法和优化方法，以提高最佳臂识别的效率。通过引入难度参数和线性规划框架，设计了有效的算法，并在理论和实验中证明了其优越性，适用于多种实际场景。

代表臂识别：一种固定置信度的方法来识别聚类代表

BriefGPT - AI 论文速递 ·

本文研究线性贝叶斯最优化模型中的最优臂选择问题，提出了一种样本分配策略，以识别最优臂并在最小化样本预算的同时提高奖励值。此外，研究探讨了在多臂赌博机中利用局部反馈提升算法性能的有效性，提出的新算法与现有算法进行了比较，展示了其在实际应用中的优势。

在全球环境变化下识别最佳臂

BriefGPT - AI 论文速递 ·

本文介绍了推荐系统的研究进展，包括基于用户反馈的个性化推荐、在线强化学习算法、对话情境策略推荐和多臂赌博机算法的应用。研究表明，考虑用户偏好的动态性和自反馈偏差能显著提升推荐效果，提出的算法在多个实验中优于现有方法。

Nah 布莱德：建模推荐系统中的用户不合规行为

BriefGPT - AI 论文速递 ·

本文探讨了多臂赌博机中的遗憾下界问题，提出了基于不同情境的紧密下界，特别是在强可观测无向反馈图和敌对情境下的算法改进。同时，研究了延迟反馈的多臂老虎机问题，提出新算法以降低对上界的要求，并展示了算法在多种应用场景中的有效性。

带专家建议的强盗问题的改进遗憾界限

BriefGPT - AI 论文速递 ·

本文探讨了多臂赌博机问题中的公平性，提出了多种算法以实现公平回报，包括不安定多臂赌博机模型、强化学习算法Fair-UCRL和SoftFair，旨在优化资源分配并确保公平性，适用于动态系统和金融投资等领域。

多臂赌博机中的全局奖励

BriefGPT - AI 论文速递 ·

本文研究了多臂赌博机问题，提出了一种新算法以最小化遗憾，并展示了其在特定条件下的近似最优性。同时，研究探讨了攻击者如何通过干扰策略控制受害者行为，揭示了在线推荐系统中的安全隐患。

非精确多臂赌博机

BriefGPT - AI 论文速递 ·

本文探讨了多臂赌博机问题的样本复杂性，提出了新算法和复杂度度量，研究了不同情况下的遗憾最小化策略，并展示了算法在信息检索和在线学习中的优越性。

改进的多臂赌博机问题的近乎紧密逼近保证

BriefGPT - AI 论文速递 ·

本研究探讨了多臂赌博机方法在自然语言生成中的应用，提出了一种通过强化学习优化多种风格生成的动态权重方法。研究表明，引入密集奖励能有效提升情感控制和摘要生成效果。此外，提出了多目标Q网络和Parrot框架，解决了多智能体系统中的学习策略问题，实验结果显示这些方法在多个质量指标上优于现有算法。

多目标强化学习中的动态奖励调整在辅导员反思生成中的应用

BriefGPT - AI 论文速递 ·

本文研究在线学习中的顺序迁移问题，提出了一种基于矩阵方法的赌博算法，分析了多臂赌博机的激励探索方法及其算法性能，并探讨了在非稳态环境下的优化策略，验证了新算法的有效性和优越性。

序列多臂赌博机中的奖励样本传输

BriefGPT - AI 论文速递 ·

本文探讨了多臂赌博机问题在去中心化网络中的应用，提出了多种在线学习策略和算法，以优化智能体的奖励获取，并确保公平性和隐私保护。这些研究适用于认知无线电网络和工业物联网等领域，具有重要的实际应用价值。

智能物联网系统中基于网络的公平分布式合作性强盗学习（技术报告）

BriefGPT - AI 论文速递 ·