读:为什么 Discord 把实验指标从 50 个砍到 15 个

💡 原文中文,约5500字,阅读约需13分钟。
📝

内容提要

Discord 将实验指标从约50个减少到15个,提升了真阳性检出率约45%。通过多重比较问题和 BH 校正,发现指标过多导致真实效果难以检测。使用相关性分析和主成分分析(PCA)识别冗余指标,最终实现有效减法。

🎯

关键要点

  • Discord 将实验指标从约 50 个减少到 15 个,提升了真阳性检出率约 45%。

  • 多重比较问题导致指标过多时,真实效果难以检测,假发现率增加。

  • 使用 Benjamini-Hochberg 校正控制假发现率,但会导致真实效果被埋没。

  • 通过模拟实验,Discord 验证了指标数量与假阳性率和真阳性检出率之间的关系。

  • 使用相关性分析和主成分分析(PCA)识别冗余指标,确保删除冗余指标不会丢失重要信息。

  • 最终,Discord 合并和删除冗余指标,实现了有效的指标减法。

延伸问答

Discord 为什么减少实验指标数量?

Discord 将实验指标从约50个减少到15个,以提升真阳性检出率约45%。

多重比较问题对实验结果有什么影响?

多重比较问题导致指标过多时,真实效果难以检测,假发现率增加。

什么是 Benjamini-Hochberg 校正?

Benjamini-Hochberg 校正是一种控制假发现率的方法,通过调整显著性阈值来平衡假阳性和真阳性。

Discord 如何验证指标数量与假阳性率的关系?

Discord 通过模拟实验,观察不同指标数量下假阳性率和真阳性检出率的变化来验证这一关系。

Discord 使用了哪些方法来识别冗余指标?

Discord 使用相关性分析和主成分分析(PCA)来识别冗余指标。

减少指标后,Discord 的实验效果如何变化?

减少指标后,Discord 检测中等大小真实效果的真阳性检出率提升了约45%。

➡️

继续阅读