DoorDash工程师采用多臂老虎机方法优化实验,解决传统A/B测试的慢和昂贵问题。该方法通过动态分配流量加速学习并减少浪费,核心算法为汤普森采样,能够有效处理延迟反馈。尽管多臂老虎机面临挑战,如难以推断未包含在奖励函数中的指标,DoorDash计划通过上下文老虎机和贝叶斯优化提升用户体验。
本研究扩展了传统多臂老虎机问题中的风险中立目标,提出了风险意识目标的索引条件,并利用汤普森采样处理未知状态转移概率,从而显著降低风险暴露。研究结果表明,该方法在多集和多臂情况下的回报损失具有次线性和二次可扩展性。
大型语言模型中提出了一种无损加速的早期退出推理方法(EESD),通过在前N层引入早期退出结构,利用部分模型生成初步令牌,并通过自蒸馏提高质量。新机制采用汤普森采样自动调节生成过程,实验显示解码时显著加速。
本研究提出了一种高效的高斯过程汤普森采样优化策略,通过一维全局根查找识别局部最优点,并利用可微分解耦表示优化后验样本,提升高维全局优化能力,增强贝叶斯优化表现。
完成下面两步后,将自动完成登录并继续当前操作。