DoorDash工程师采用多臂老虎机方法优化实验,解决传统A/B测试的慢和昂贵问题。该方法通过动态分配流量加速学习并减少浪费,核心算法为汤普森采样,能够有效处理延迟反馈。尽管多臂老虎机面临挑战,如难以推断未包含在奖励函数中的指标,DoorDash计划通过上下文老虎机和贝叶斯优化提升用户体验。
多臂老虎机(MAB)模型通过探索与利用的平衡来选择最佳策略。UCB算法优化策略选择,广泛应用于在线广告和A/B测试等领域。在防火墙策略选择和钓鱼邮件检测中,利用历史数据动态调整选择以提高成功率。
本研究探讨了有限资源下的多代理竞争性多臂老虎机博弈,提出了一种结合信息与旁支支付的机制(CISP),有效解决资源争用问题,确保社会最优的臂推荐,降低效率损失。
本研究针对多臂老虎机环境中的最佳臂识别问题,提出了一种新算法,利用“代理比例”简化计算,理论上证明其渐近最优,并通过实证研究验证了其效率。
本研究提出了一种新的多臂老虎机算法CYANEA,旨在解决大型语言模型在程序合成中的表现不均衡问题。该算法优化了符号求解器和提示选择,能够提高37.2%的查询解决率。
本研究扩展了传统多臂老虎机问题中的风险中立目标,提出了风险意识目标的索引条件,并利用汤普森采样处理未知状态转移概率,从而显著降低风险暴露。研究结果表明,该方法在多集和多臂情况下的回报损失具有次线性和二次可扩展性。
本研究分析了随机和对抗多臂老虎机问题中扰动算法的最优性。我们统一分析了子Weibull和有界扰动的遗憾,特别是次高斯分布的收益。对于参数为2的子Weibull扰动,我们提供了实例最优界限。在对抗设置中,利用离散选择和极值理论,证明了两种解决方法的障碍。结果表明,最优扰动若存在,则为Frechet类型。
完成下面两步后,将自动完成登录并继续当前操作。