小红花·文摘

本文探讨了Thompson Sampling算法在多臂赌博问题中的应用，提出了新的悔恨分析方法和界限，研究了逻辑回归赌博机的鲁棒性及新算法的有效性，分析了期望值与尾部风险的权衡，并引入自适应算法以优化遗憾表现。

数据驱动的新冠问题调查：统一分析及可实现遗憾的范围

BriefGPT - AI 论文速递 ·

本文介绍了一种基于汤普森抽样的强化学习策略，利用Langevin Monte Carlo从后验分布中抽取Q函数，能够有效学习并在深度强化学习中表现优异。研究提出了改进算法，解决了探索与利用的平衡问题，并在多臂赌博问题中展示了良好的性能。

基于近似采样的强化学习更高效的随机探索

BriefGPT - AI 论文速递 ·

本文探讨了基于贝叶斯方法的Thompson Sampling算法在多臂赌博问题中的应用，提出了新的悔恨分析方法，并证明了其在期望后悔上的界限。研究表明，该算法在强化学习和Markov决策过程中表现优异，尤其在处理未知环境和奖励分布时，具有重要的理论和实际应用价值。

无限时间段折现决策过程的汤普森抽样

BriefGPT - AI 论文速递 ·

本文介绍了Thompson采样（TS）算法在多臂赌博问题中的应用，提出了一种新变体$b1$-TS，并分析了其悔恨界限。研究表明，该算法在动态环境中表现优异，适用于更广泛的上下文赌博机设置。

智能和适应后验采样算法用于二元选择

BriefGPT - AI 论文速递 ·

本文探讨了Thompson Sampling（TS）算法在多臂赌博问题中的应用，提出了新的悔恨分析方法，并证明了其在不同场景下的界限。研究还介绍了基于TS的并行贝叶斯优化方法，显示其在时间敏感的优化问题中优于传统方法。通过计算机模拟验证了改进版本的有效性，强调了TS在强化学习和贝叶斯优化中的潜力。

最小化 Thompson 采样后悔率对标准差比率 (TS-RSR)：一种可证明高效的批量贝叶斯优化算法

BriefGPT - AI 论文速递 ·

本研究将内容探索任务形式化为带有延迟奖励的多臂赌博问题，通过预测延迟奖励的模型和赌博算法提高推荐系统性能。

用户有限注意力的利用：失配、学习和排序

BriefGPT - AI 论文速递 ·

本文介绍了一种新颖的组合性随机贪婪的赌博算法（SGB），用于解决多臂赌博问题。该算法通过观察每个时间步选择的一组臂的联合奖励，采用了优化的随机探索再确认的方法。实验证明，该算法在单调随机次模性奖励下，能够实现(1-1/e)的遗憾边界，并且在基数约束方面优于最先进的方法。同时，在在线受限社交影响最大化的背景下，该算法始终优于其他算法，并且随着基数的增长，性能差距也增大。

组合随机贪心赌博机

BriefGPT - AI 论文速递 ·

该研究提出了基于多臂赌博问题的UCB^τ算法，通过引入调整的奖励项考虑任务难度，具有理论上的强大性能。在合成数据集上的比较评估中，UCB^τ表现出色，具有更低的风险。

少探索即可

BriefGPT - AI 论文速递 ·

该文介绍了一种解决无休止多臂赌博问题的观测模型，应用可实现区域方法和部分守恒定律分析其可索引性和优先指数。提出了一个近似过程来将问题转化为有限状态问题，并进行了数值实验。

基于 Whittle 指数的有限时间分析：带有神经网络函数逼近的不安定多臂赌博机上的 Q 学习

BriefGPT - AI 论文速递 ·