小红花·文摘

本文讨论了MinHash和SimHash两种算法在大规模相似度检测中的应用。MinHash适用于Jaccard相似度，常用于文本去重和抄袭检测；SimHash适用于Cosine相似度，适合推荐系统。文章详细推导了算法原理、实现方法及其在搜索引擎和推荐系统中的应用经验，强调了在处理亿级文档时的效率与精度权衡。

MinHash 与 SimHash：海量文本相似度检测

土法炼钢兴趣小组的博客 ·

本研究提出了一种基于MinHash和HyperLogLog（HLL）数据草图的实时设备覆盖预测系统，显著提高了预测速度和准确性，误差率控制在5%以内，有效减少客户入驻时间，降低潜在损失。

Real-Time Device Coverage Prediction Using HLL and MinHash Data Sketches

BriefGPT - AI 论文速递 ·

使用Jaccard相似度和MinHash技术查找近似重复文档

Posts on Made of Bugs ·