小红花·文摘

通过多臂老虎机优化DoorDash的A/B测试

InfoQ ·

多臂老虎机（MAB）模型通过探索与利用的平衡来选择最佳策略。UCB算法优化策略选择，广泛应用于在线广告和A/B测试等领域。在防火墙策略选择和钓鱼邮件检测中，利用历史数据动态调整选择以提高成功率。

AI养蛊：让钓鱼邮件和反钓鱼邮件系统打一架

FreeBuf网络安全行业门户 ·

本研究探讨了有限资源下的多代理竞争性多臂老虎机博弈，提出了一种结合信息与旁支支付的机制（CISP），有效解决资源争用问题，确保社会最优的臂推荐，降低效率损失。

Competitive Multi-Armed Bandit Games in Resource Sharing

BriefGPT - AI 论文速递 ·

本研究探讨了多臂老虎机环境中的最佳臂识别问题，提出了一种新算法，利用“代理比例”方法优化识别时间，避免复杂计算。该算法被证明是渐近最优，并通过实证研究验证了其效率。

Optimal Multi-Objective Best Arm Identification with Fixed Confidence

BriefGPT - AI 论文速递 ·

本研究提出了一种新的多臂老虎机算法CYANEA，旨在解决大型语言模型在程序合成中的表现不均衡问题。该算法优化了符号求解器和提示选择，能够提高37.2%的查询解决率。

在线提示与求解器选择用于程序合成

BriefGPT - AI 论文速递 ·

本研究扩展了传统的多臂老虎机问题，提出了风险意识目标，并采用汤普森采样方法处理未知状态转移概率，从而显著降低风险暴露。研究结果表明，该方法在多集和多臂情况下的回报损失具有次线性和二次可扩展性。

Planning and Learning in Risk-Aware Restless Multi-Armed Bandit Problem

BriefGPT - AI 论文速递 ·

本文研究了多臂老虎机问题的性质与限制，分析了不同算法在减少后悔方面的表现，提出了一种基于隐式探索的损失估计策略和渐近最优算法，以优化探索与利用的平衡，尤其是在具有线性约束的情况下。通过数值实验验证了新算法的有效性。

在未知线性约束下，使用拉格朗日方法进行探索性学习

BriefGPT - AI 论文速递 ·

本文探讨了多臂老虎机模型的性能，提出了新的优化算法和改进的序贯停止规则，研究了有限反馈和多智能体环境下的遗憾下界，展示了算法的有效性和性能保证。

与交互相关的阿苏阿、法诺和勒卡姆：统一的下界框架及带宽学习能力的特征化

BriefGPT - AI 论文速递 ·

本文提出了一种基于多臂老虎机的池化主动学习算法，结合下限置信度和自协调正则化设计。该算法在每轮中从采样分布中选择样本并查询标签。实验结果显示，该算法在UCI数据集上的表现优于其他主动学习算法。此外，研究探讨了主动学习的理论框架及其在不平衡分类任务中的应用，提出了新的方法以提升性能和可扩展性。

FIRAL：用于多项逻辑回归的主动学习算法

BriefGPT - AI 论文速递 ·

本文介绍了一种基于多臂老虎机框架的决策模型，分析社交网络中的学习与决策过程。个体通过观察邻居行为来最小化后悔。研究提出多种算法，适用于不同网络结构和反馈情况，证明了在社交网络中实现近似纳什均衡的有效性。同时，探讨了延迟反馈和动态偏好下的遗憾最小化问题，提出新的算法和度量标准，具有重要应用价值。

带有赌博反馈的对抗网络优化：在非平稳多跳网络中最大化效用

BriefGPT - AI 论文速递 ·

本文探讨了多臂老虎机问题中的多种算法，包括置信上界算法、非参数UCB算法和广义上限置信界算法。研究了在有限样本预算下有效估计多个分布的平均值，并提出自适应采样策略以优化性能。此外，介绍了数据驱动的方法来估计最大误差上界，改进了贝叶斯优化的高斯过程UCB采集函数，显示出在多种问题中优于传统方法的性能。

使用上限置信界限方法估计最大均值

BriefGPT - AI 论文速递 ·

本文提出了一种基于乘数bootstrap的非参数UCB算法，并结合二阶校正，推导了多臂老虎机的后悔边界。研究表明，该算法在多臂和线性老虎机问题中显著降低了后悔。此外，探讨了折扣上限置信区间和滑动窗口上限置信区间的算法，证明了其一致性和优越性。

使用上置信界算法进行推断

BriefGPT - AI 论文速递 ·

本文提出了一种基于最佳臂多臂老虎机的连续监控框架，替代传统A/B测试，以控制虚假发现率(FDR)。通过分层贝叶斯估计和自适应多重检验方法，解决了多因素相关性和早期停止等问题，提升了信号检测能力。此外，研究探讨了在线控制FDR的广义Alpha-investing过程及其改进，提供了新的假阳性发现比例控制方法。

基于提升度的排名：大规模 A/B 测试的成本效益方法

BriefGPT - AI 论文速递 ·

本文研究了K-armed对决强盗问题，提出了一种新算法，显著优于现有方法。研究涉及多臂老虎机模型的学习，提出E³和E³-TS策略，解决了在线学习的附加成本问题，并探讨了延迟反馈下的多臂老虎机问题，设计了改进的EXP3算法，实验结果表明其有效性。

对抗性多臂对决

BriefGPT - AI 论文速递 ·

本文研究了非随机联邦多臂老虎机问题，提出了新算法FEDEXP3，能够在不交换信息的情况下实现次线性遗憾。同时，探讨了在自适应对手和有限反馈条件下的分布式在线优化，提出了有效的合作策略和算法，并验证了其在合成和真实数据集上的有效性。

联邦组合多智能体多臂赌博机

BriefGPT - AI 论文速递 ·

本文提出了多种基于UCB算法的改进方法，涵盖非参数、动态索引策略和非稳态问题，展示了在多臂老虎机和随机赌博机模型中的应用效果。研究表明，这些算法在降低后悔度和提高性能方面优于现有技术，适用于复杂环境和预算限制问题。

HELLINGER-UCB: 一种用于随机多臂赌博问题和推荐系统冷启动问题的新算法

BriefGPT - AI 论文速递 ·