小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
通过多臂老虎机优化DoorDash的A/B测试

DoorDash工程师采用多臂老虎机方法优化实验,解决传统A/B测试的慢和昂贵问题。该方法通过动态分配流量加速学习并减少浪费,核心算法为汤普森采样,能够有效处理延迟反馈。尽管多臂老虎机面临挑战,如难以推断未包含在奖励函数中的指标,DoorDash计划通过上下文老虎机和贝叶斯优化提升用户体验。

通过多臂老虎机优化DoorDash的A/B测试

InfoQ
InfoQ · 2026-01-25T13:00:00Z

多臂老虎机(MAB)模型通过探索与利用的平衡来选择最佳策略。UCB算法优化策略选择,广泛应用于在线广告和A/B测试等领域。在防火墙策略选择和钓鱼邮件检测中,利用历史数据动态调整选择以提高成功率。

AI养蛊:让钓鱼邮件和反钓鱼邮件系统打一架

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-11-19T05:59:59Z

本研究探讨了有限资源下的多代理竞争性多臂老虎机博弈,提出了一种结合信息与旁支支付的机制(CISP),有效解决资源争用问题,确保社会最优的臂推荐,降低效率损失。

Competitive Multi-Armed Bandit Games in Resource Sharing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-26T00:00:00Z

本研究探讨了多臂老虎机环境中的最佳臂识别问题,提出了一种新算法,利用“代理比例”方法优化识别时间,避免复杂计算。该算法被证明是渐近最优,并通过实证研究验证了其效率。

Optimal Multi-Objective Best Arm Identification with Fixed Confidence

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z

本研究提出了一种新的多臂老虎机算法CYANEA,旨在解决大型语言模型在程序合成中的表现不均衡问题。该算法优化了符号求解器和提示选择,能够提高37.2%的查询解决率。

在线提示与求解器选择用于程序合成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z

本研究扩展了传统的多臂老虎机问题,提出了风险意识目标,并采用汤普森采样方法处理未知状态转移概率,从而显著降低风险暴露。研究结果表明,该方法在多集和多臂情况下的回报损失具有次线性和二次可扩展性。

Planning and Learning in Risk-Aware Restless Multi-Armed Bandit Problem

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本文研究了多臂老虎机问题的性质与限制,分析了不同算法在减少后悔方面的表现,提出了一种基于隐式探索的损失估计策略和渐近最优算法,以优化探索与利用的平衡,尤其是在具有线性约束的情况下。通过数值实验验证了新算法的有效性。

在未知线性约束下,使用拉格朗日方法进行探索性学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

本文探讨了多臂老虎机模型的性能,提出了新的优化算法和改进的序贯停止规则,研究了有限反馈和多智能体环境下的遗憾下界,展示了算法的有效性和性能保证。

与交互相关的阿苏阿、法诺和勒卡姆:统一的下界框架及带宽学习能力的特征化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

本文提出了一种基于多臂老虎机的池化主动学习算法,结合下限置信度和自协调正则化设计。该算法在每轮中从采样分布中选择样本并查询标签。实验结果显示,该算法在UCI数据集上的表现优于其他主动学习算法。此外,研究探讨了主动学习的理论框架及其在不平衡分类任务中的应用,提出了新的方法以提升性能和可扩展性。

FIRAL:用于多项逻辑回归的主动学习算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-11T00:00:00Z

本文介绍了一种基于多臂老虎机框架的决策模型,分析社交网络中的学习与决策过程。个体通过观察邻居行为来最小化后悔。研究提出多种算法,适用于不同网络结构和反馈情况,证明了在社交网络中实现近似纳什均衡的有效性。同时,探讨了延迟反馈和动态偏好下的遗憾最小化问题,提出新的算法和度量标准,具有重要应用价值。

带有赌博反馈的对抗网络优化:在非平稳多跳网络中最大化效用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

本文探讨了多臂老虎机问题中的多种算法,包括置信上界算法、非参数UCB算法和广义上限置信界算法。研究了在有限样本预算下有效估计多个分布的平均值,并提出自适应采样策略以优化性能。此外,介绍了数据驱动的方法来估计最大误差上界,改进了贝叶斯优化的高斯过程UCB采集函数,显示出在多种问题中优于传统方法的性能。

使用上限置信界限方法估计最大均值

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-08T00:00:00Z

本文提出了一种基于乘数bootstrap的非参数UCB算法,并结合二阶校正,推导了多臂老虎机的后悔边界。研究表明,该算法在多臂和线性老虎机问题中显著降低了后悔。此外,探讨了折扣上限置信区间和滑动窗口上限置信区间的算法,证明了其一致性和优越性。

使用上置信界算法进行推断

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-08T00:00:00Z

本文提出了一种基于最佳臂多臂老虎机的连续监控框架,替代传统A/B测试,以控制虚假发现率(FDR)。通过分层贝叶斯估计和自适应多重检验方法,解决了多因素相关性和早期停止等问题,提升了信号检测能力。此外,研究探讨了在线控制FDR的广义Alpha-investing过程及其改进,提供了新的假阳性发现比例控制方法。

基于提升度的排名:大规模 A/B 测试的成本效益方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-01T00:00:00Z

本文研究了K-armed对决强盗问题,提出了一种新算法,显著优于现有方法。研究涉及多臂老虎机模型的学习,提出E³和E³-TS策略,解决了在线学习的附加成本问题,并探讨了延迟反馈下的多臂老虎机问题,设计了改进的EXP3算法,实验结果表明其有效性。

对抗性多臂对决

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-18T00:00:00Z

本文研究了非随机联邦多臂老虎机问题,提出了新算法FEDEXP3,能够在不交换信息的情况下实现次线性遗憾。同时,探讨了在自适应对手和有限反馈条件下的分布式在线优化,提出了有效的合作策略和算法,并验证了其在合成和真实数据集上的有效性。

联邦组合多智能体多臂赌博机

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-09T00:00:00Z

本文提出了多种基于UCB算法的改进方法,涵盖非参数、动态索引策略和非稳态问题,展示了在多臂老虎机和随机赌博机模型中的应用效果。研究表明,这些算法在降低后悔度和提高性能方面优于现有技术,适用于复杂环境和预算限制问题。

HELLINGER-UCB: 一种用于随机多臂赌博问题和推荐系统冷启动问题的新算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-16T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码