InfoQ ·

通过多臂老虎机优化DoorDash的A/B测试

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

DoorDash工程师采用多臂老虎机方法优化实验，解决传统A/B测试的慢和昂贵问题。该方法通过动态分配流量加速学习并减少浪费，核心算法为汤普森采样，能够有效处理延迟反馈。尽管多臂老虎机面临挑战，如难以推断未包含在奖励函数中的指标，DoorDash计划通过上下文老虎机和贝叶斯优化提升用户体验。

🎯

🔎

多臂老虎机方法通过动态流量分配，能够快速识别最佳实验选项，显著降低实验成本。这种方法适合需要快速迭代和实时反馈的场景，尤其在竞争激烈的市场中，能够帮助企业更快地做出决策。

尽管多臂老虎机方法具有优势，但也存在挑战。特别是对于未包含在奖励函数中的指标，推断变得更加困难。这要求团队在设计实验时，需谨慎选择奖励指标，以确保获取全面的洞察。

由于多臂老虎机方法可能导致用户在多次交互中体验不一致，DoorDash计划通过上下文老虎机和贝叶斯优化来解决这一问题。这表明在实施新方法时，保持用户体验的一致性是一个重要的考量。

❓

多臂老虎机方法通过动态分配流量，基于性能自适应分配实验流量，加速学习并减少浪费。

传统A/B测试依赖固定流量分配和预定样本大小，导致机会成本增加，实验速度慢且昂贵。

汤普森采样是一种贝叶斯算法，用于根据后验奖励分布决定流量分配，并在新数据到来时更新奖励期望。

主要挑战包括难以推断未包含在奖励函数中的指标，以及可能导致用户体验不一致。

DoorDash计划通过采用上下文老虎机、贝叶斯优化和实施粘性用户分配来提升用户体验。

该方法通过持续选择表现较好的选项，同时学习所有候选选项的信息，直到找到最佳选项。

🏷️