freeCodeCamp.org ·

布隆过滤器的工作原理：从零开始用Python构建一个

💡 原文英文，约2300词，阅读约需9分钟。

📝

内容提要

布隆过滤器是一种概率数据结构，用于快速判断元素是否在集合中。它通过固定大小的位数组和多个哈希函数实现，内存占用极小，查询速度快。虽然可能出现假阳性，但绝对不会出现假阴性。布隆过滤器广泛应用于数据库、网络安全和缓存等领域，适合快速判断的场景。

🎯

🔎

布隆过滤器在多个领域中发挥着重要作用，尤其是在数据库和网络安全中。它能够在进行昂贵的操作前，快速判断某个元素是否存在，从而节省时间和资源。例如，数据库在读取文件前会先查询布隆过滤器，避免不必要的磁盘读取。

布隆过滤器的一个显著特性是可能出现假阳性，即它可能错误地判断某个元素存在。尽管如此，这种特性在实际应用中是可接受的，因为它能有效减少昂贵操作的次数。用户在设计系统时需考虑假阳性率，以平衡性能与准确性。

布隆过滤器无法删除元素，因为位数组是共享的，清除某个元素的位可能会影响其他元素的判断。这一局限性在需要频繁删除操作的场景中显得尤为重要，开发者可能需要考虑使用计数布隆过滤器作为替代方案。

❓

布隆过滤器是一种概率数据结构，用于判断元素是否在集合中，提供绝对不在和可能在的答案。

布隆过滤器通过固定大小的位数组和多个哈希函数，将元素映射到位数组中的位置，从而判断元素是否存在。

假阳性是指布隆过滤器错误地报告某个元素可能存在于集合中，尽管它实际上并不存在。

布隆过滤器广泛应用于数据库、网络安全、缓存等领域，适合快速判断的场景。

假阳性率可以通过调整位数组大小和哈希函数数量来控制，具体公式为 p = (1 - e^(-k*n/m)) ** k。

布隆过滤器不能删除元素，因为位是共享的，清除某个元素的位可能会影响其他元素的判断。

🏷️