水塘抽样是一种在未知长度数据流中均匀抽取k个样本的算法。其核心思想是通过替换过程确保每个元素被选中的概率为k/n。文章介绍了经典的Algorithm R及其优化版本Algorithm L,后者通过跳跃策略减少随机数生成次数。此外,还讨论了加权水塘抽样和分布式场景下的合并策略,强调了其在A/B测试、数据库采样和机器学习中的应用。
完成下面两步后,将自动完成登录并继续当前操作。