土法炼钢兴趣小组的博客 ·

频率估计的理论极限：Space-Saving 与 Misra-Gries

💡 原文中文，约29200字，阅读约需70分钟。

📝

内容提要

本文讨论了在有限内存下识别数据流中频繁项的问题，介绍了三种经典的确定性流式算法：Misra-Gries、Lossy Counting和Space-Saving。这些算法通过不同的方法在内存限制下有效找出频率超过某个阈值的元素，并提供了相应的误差界和C语言实现，广泛应用于网络流量分析、搜索引擎和推荐系统等领域。

🎯

关键要点

在有限内存下识别数据流中频繁项的问题被称为Heavy Hitter问题。
Heavy Hitter问题要求在内存限制下找出频率超过某个阈值的元素。
Misra-Gries算法是最早的确定性流式heavy hitter算法，使用k-1个计数器。
Space-Saving算法不仅解决heavy hitter问题，还能回答top-k查询，使用k个计数器。
Lossy Counting算法通过将数据流分为大小为w的桶来进行频率估计。
Misra-Gries和Space-Saving算法在理论上是空间最优的，使用O(1/ε)个计数器。
这些算法广泛应用于网络流量分析、搜索引擎和推荐系统等领域。
在实际应用中，Space-Saving算法的内存效率最优，适合处理高流量数据。

❓

延伸问答

什么是Heavy Hitter问题？

Heavy Hitter问题是在有限内存下识别数据流中频率超过某个阈值的元素。

Misra-Gries算法的基本原理是什么？

Misra-Gries算法使用k-1个计数器，通过对流中元素的计数和消消乐操作来识别频率超过n/k的元素。

Space-Saving算法与Misra-Gries算法有什么区别？

Space-Saving算法使用k个计数器，能够支持top-k查询，并且只会过估计频率，而Misra-Gries算法只使用k-1个计数器，可能低估频率。

Lossy Counting算法是如何工作的？

Lossy Counting算法将数据流分为大小为w的桶，维护元素的频率和最大误差，并在每个桶边界清理不再频繁的元素。

这些算法在实际应用中有哪些场景？

这些算法广泛应用于网络流量分析、搜索引擎的热词统计和推荐系统等领域。

Space-Saving算法的内存效率如何？

Space-Saving算法在内存效率上表现优越，适合处理高流量数据，使用O(k)的空间。

🏷️

继续阅读

阿里云推出Token Plan团队版订阅套餐每月198元起仅提供约6,250次调用
#人工智能阿里云也推出 Token Plan 订阅套餐，起步价每月 198 元大约可以发起 6,250 次调用，相较同价位的 Coding Plan P...
Claude被爆未经用户同意自动部署浏览器桥接组件对用户隐私构成系统性风险
#安全资讯 Claude 桌面客户端被发现未经用户同意擅自安装桥接组件，该组件可以收集浏览器的各类信息，隐私专家称其形同后门。隐私专家亚历山大汉夫发现 C...
荣耀推出「养虾本」，这才是 2026 年 AIPC 的答案
一只不用学、用得起、不怕用的龙虾#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
整洁架构之道
由于很不喜欢软件架构课老师的授课风格，所以决定完全自学。选这本书当教材可能不太合适，但的确收获颇多。眼看 Coding Agents 的趋势只增不减，就算...
在苹果新 CEO 上任前，我们和他聊了聊 AI 与 iPhone
当年 Ternus 没有回答的问题，现在该他回答了#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
短时间内出现多次中断后 Codex团队宣布重置本周额度作为补偿
#人工智能短时间内出现多次中断后 Codex 团队宣布重置本周额度作为补偿，如果你昨天已经将当周额度使用 80%+ 那现在重置后就是血赚。昨天夜里 Ch...