土法炼钢兴趣小组的博客 ·

MinHash 与 SimHash：海量文本相似度检测

💡 原文中文，约25600字，阅读约需61分钟。

📝

内容提要

本文讨论了MinHash和SimHash两种算法在大规模相似度检测中的应用。MinHash适用于Jaccard相似度，常用于文本去重和抄袭检测；SimHash适用于Cosine相似度，适合推荐系统。文章详细推导了算法原理、实现方法及其在搜索引擎和推荐系统中的应用经验，强调了在处理亿级文档时的效率与精度权衡。

🎯

关键要点

MinHash和SimHash是用于大规模相似度检测的两种算法。
MinHash适用于Jaccard相似度，常用于文本去重和抄袭检测。
SimHash适用于Cosine相似度，适合推荐系统。
MinHash通过将文档压缩成签名，降低了比较复杂度。
SimHash利用随机超平面方法生成指纹，适合快速相似度计算。
在处理亿级文档时，MinHash和SimHash在效率与精度之间需要权衡。
LSH（局部敏感哈希）技术可以加速MinHash的签名比较。
MinHash和SimHash在实际应用中各有优劣，选择时需根据具体场景需求。

🔎

延伸解读

MinHash与SimHash的适用场景

MinHash和SimHash各自适用于不同的场景。MinHash更适合需要精确的token级去重，如抄袭检测和搜索引擎网页去重，而SimHash则适合推荐系统和实时流处理等需要快速计算的场景。选择合适的算法可以提高系统的效率和准确性。

效率与精度的权衡

在处理亿级文档时，MinHash和SimHash都面临效率与精度的权衡。MinHash通过增加哈希函数数量可以提高精度，但会增加计算开销；SimHash则在存储和计算上更为紧凑，但在低相似度情况下的区分能力较弱。理解这些权衡有助于在实际应用中做出更好的选择。

局部敏感哈希（LSH）的应用

LSH技术可以显著加速MinHash的签名比较，通过将签名分成多个band并进行哈希，只比较同一桶内的文档。这种方法在大规模相似度检测中非常有效，能够降低计算复杂度，适合需要快速响应的应用场景。

❓

延伸问答

MinHash 和 SimHash 的主要区别是什么？

MinHash 适用于 Jaccard 相似度，主要用于文本去重；SimHash 适用于 Cosine 相似度，适合推荐系统。

MinHash 如何降低相似度检测的复杂度？

MinHash 通过将文档压缩成签名，减少了逐对比较的复杂度，从 O(n^2) 降到近线性。

SimHash 是如何生成指纹的？

SimHash 通过选择随机超平面，对特征向量进行投影，生成一个 f-bit 的指纹。

在什么场景下应该选择使用 MinHash？

MinHash 适合需要精细相似度阈值的场景，如抄袭检测和精确 token 级去重。

LSH 技术在相似度检测中有什么作用？

LSH 技术通过将签名分成多个 band，只比较同桶内的文档，从而加速签名比较。

MinHash 和 SimHash 的存储开销有何不同？

MinHash 的存储开销较高，每文档数百字节；而 SimHash 的存储开销极低，每文档仅需 8 字节。

🏷️