文章讨论了在基于大型语言模型(LLM)的产品中,用户选择新功能(如AI助手)时的偏差问题。重度用户更倾向于尝试新功能,导致比较结果失真。为解决这一问题,文章介绍了倾向评分方法,通过统计工具消除选择偏差,准确评估功能效果,并提供具体步骤和代码示例,帮助数据科学家在产品实验中应用这些方法。
研究提出了一种新的粗化逆倾向评分加权(CIPW)估计器,解决因果推断中因倾向评分误差导致的不稳定性。CIPW估计器在处理不准确倾向评分时,能确保置信区间按$ ext{ε} + 1/ ext{√n}$缩放,显示出改进置信区间估计的潜力。
完成下面两步后,将自动完成登录并继续当前操作。