小红花·文摘

本文讨论了在有限内存下识别数据流中频繁项的问题，介绍了三种经典的确定性流式算法：Misra-Gries、Lossy Counting和Space-Saving。这些算法通过不同的方法在内存限制下有效找出频率超过某个阈值的元素，并提供了相应的误差界和C语言实现，广泛应用于网络流量分析、搜索引擎和推荐系统等领域。

频率估计的理论极限：Space-Saving 与 Misra-Gries

土法炼钢兴趣小组的博客 ·

流式算法用于在大数据环境中处理海量数据的近似计算问题。文章介绍了流式计算模型的基本概念、流式算法的设计哲学及其实际应用的重要性，重点讨论了不同流模型、频率矩、基数统计和分位数估计等算法，以及它们在现代大数据系统（如Apache Flink、Spark、Redis等）中的应用。流式算法强调在有限资源下实现高效、可合并的统计计算，适合实时数据处理和分析。

流式算法总论：亚线性空间的艺术

土法炼钢兴趣小组的博客 ·

无存储数据分析 - 第1部分

DEV Community ·