小红花·文摘

本文讨论了MinHash和SimHash两种算法在大规模相似度检测中的应用。MinHash适用于Jaccard相似度，常用于文本去重和抄袭检测；SimHash适用于Cosine相似度，适合推荐系统。文章详细推导了算法原理、实现方法及其在搜索引擎和推荐系统中的应用经验，强调了在处理亿级文档时的效率与精度权衡。