DoorDash工程师采用多臂老虎机方法优化实验,解决传统A/B测试的慢和昂贵问题。该方法通过动态分配流量加速学习并减少浪费,核心算法为汤普森采样,能够有效处理延迟反馈。尽管多臂老虎机面临挑战,如难以推断未包含在奖励函数中的指标,DoorDash计划通过上下文老虎机和贝叶斯优化提升用户体验。
多臂老虎机(MAB)模型通过探索与利用的平衡来选择最佳策略。UCB算法优化策略选择,广泛应用于在线广告和A/B测试等领域。在防火墙策略选择和钓鱼邮件检测中,利用历史数据动态调整选择以提高成功率。
本研究探讨了有限资源下的多代理竞争性多臂老虎机博弈,提出了一种结合信息与旁支支付的机制(CISP),有效解决资源争用问题,确保社会最优的臂推荐,降低效率损失。
本研究探讨了多臂老虎机环境中的最佳臂识别问题,提出了一种新算法,利用“代理比例”方法优化识别时间,避免复杂计算。该算法被证明是渐近最优,并通过实证研究验证了其效率。
本研究提出了一种新的多臂老虎机算法CYANEA,旨在解决大型语言模型在程序合成中的表现不均衡问题。该算法优化了符号求解器和提示选择,能够提高37.2%的查询解决率。
本研究扩展了传统的多臂老虎机问题,提出了风险意识目标,并采用汤普森采样方法处理未知状态转移概率,从而显著降低风险暴露。研究结果表明,该方法在多集和多臂情况下的回报损失具有次线性和二次可扩展性。
本文研究了多臂老虎机问题的性质与限制,分析了不同算法在减少后悔方面的表现,提出了一种基于隐式探索的损失估计策略和渐近最优算法,以优化探索与利用的平衡,尤其是在具有线性约束的情况下。通过数值实验验证了新算法的有效性。
本文探讨了多臂老虎机模型的性能,提出了新的优化算法和改进的序贯停止规则,研究了有限反馈和多智能体环境下的遗憾下界,展示了算法的有效性和性能保证。
本文提出了一种基于多臂老虎机的池化主动学习算法,结合下限置信度和自协调正则化设计。该算法在每轮中从采样分布中选择样本并查询标签。实验结果显示,该算法在UCI数据集上的表现优于其他主动学习算法。此外,研究探讨了主动学习的理论框架及其在不平衡分类任务中的应用,提出了新的方法以提升性能和可扩展性。
本文介绍了一种基于多臂老虎机框架的决策模型,分析社交网络中的学习与决策过程。个体通过观察邻居行为来最小化后悔。研究提出多种算法,适用于不同网络结构和反馈情况,证明了在社交网络中实现近似纳什均衡的有效性。同时,探讨了延迟反馈和动态偏好下的遗憾最小化问题,提出新的算法和度量标准,具有重要应用价值。
本文探讨了多臂老虎机问题中的多种算法,包括置信上界算法、非参数UCB算法和广义上限置信界算法。研究了在有限样本预算下有效估计多个分布的平均值,并提出自适应采样策略以优化性能。此外,介绍了数据驱动的方法来估计最大误差上界,改进了贝叶斯优化的高斯过程UCB采集函数,显示出在多种问题中优于传统方法的性能。
本文提出了一种基于乘数bootstrap的非参数UCB算法,并结合二阶校正,推导了多臂老虎机的后悔边界。研究表明,该算法在多臂和线性老虎机问题中显著降低了后悔。此外,探讨了折扣上限置信区间和滑动窗口上限置信区间的算法,证明了其一致性和优越性。
本文提出了一种基于最佳臂多臂老虎机的连续监控框架,替代传统A/B测试,以控制虚假发现率(FDR)。通过分层贝叶斯估计和自适应多重检验方法,解决了多因素相关性和早期停止等问题,提升了信号检测能力。此外,研究探讨了在线控制FDR的广义Alpha-investing过程及其改进,提供了新的假阳性发现比例控制方法。
本文研究了K-armed对决强盗问题,提出了一种新算法,显著优于现有方法。研究涉及多臂老虎机模型的学习,提出E³和E³-TS策略,解决了在线学习的附加成本问题,并探讨了延迟反馈下的多臂老虎机问题,设计了改进的EXP3算法,实验结果表明其有效性。
本文研究了非随机联邦多臂老虎机问题,提出了新算法FEDEXP3,能够在不交换信息的情况下实现次线性遗憾。同时,探讨了在自适应对手和有限反馈条件下的分布式在线优化,提出了有效的合作策略和算法,并验证了其在合成和真实数据集上的有效性。
本文提出了多种基于UCB算法的改进方法,涵盖非参数、动态索引策略和非稳态问题,展示了在多臂老虎机和随机赌博机模型中的应用效果。研究表明,这些算法在降低后悔度和提高性能方面优于现有技术,适用于复杂环境和预算限制问题。
完成下面两步后,将自动完成登录并继续当前操作。