Spotify Engineering ·

通过LLM评估优化实验——一个漏斗，而非分叉

💡 原文英文，约1000词，阅读约需4分钟。

📝

内容提要

LLM评估是一种新工具，能够快速、低成本地评估内容的相关性和质量。Spotify的实验表明，评估与实验应结合使用，评估帮助筛选候选项，实验验证用户反应。通过不断调整评估，提升其与在线结果的匹配度，确保系统的有效性和用户体验。

🎯

🔎

LLM评估与实验的结合形成了一个漏斗结构，评估在实验之前进行，以提高实验的命中率。这种方法确保了团队在进行实验时，已经筛选出不具潜力的候选项，从而节省了资源并提高了效率。理解这一关系有助于团队更好地规划实验流程，避免不必要的浪费。

尽管LLM评估能够快速评估内容质量，但它并不能完全替代实验。评估只能验证输出是否符合质量标准，而实验则需要验证用户的真实反应。因此，在依赖评估结果时，团队应注意其局限性，确保在关键决策中结合实验数据。

在复杂系统中，早期和频繁地进行评估可以帮助团队识别潜在风险。Spotify的经验表明，约42%的实验会被回滚，以防止次要指标的回归。这提醒我们，在进行任何变更时，必须监控未优化的指标，以确保整体业务健康。

❓

LLM评估是一种新工具，能够快速、低成本地评估内容的相关性、连贯性和质量。

Spotify的实验显示，约12%的A/B测试产生积极结果，但64%的测试提供了有效学习。

评估和实验的关系是一个漏斗，评估在实验之前进行，以提高实验的命中率。

通过评估筛选出不具潜力的候选项，可以提高后续实验的效率。

LLM评估可以生成假设，帮助团队发现需要改进的模式和方向。

实验后进行评估校准可以确保评估结果与实际用户体验一致，避免误导。

🏷️