本文讨论了MinHash和SimHash两种算法在大规模相似度检测中的应用。MinHash适用于Jaccard相似度,常用于文本去重和抄袭检测;SimHash适用于Cosine相似度,适合推荐系统。文章详细推导了算法原理、实现方法及其在搜索引擎和推荐系统中的应用经验,强调了在处理亿级文档时的效率与精度权衡。
RawWeb最近进行了两项重要更新:引入SimHash实现文档去重,并将Elasticsearch迁移至Meilisearch以降低运维成本。成功清理了56,000个相似文档,但在Meilisearch的内存和性能上遇到挑战。SimHash通过哈希算法高效评估文本相似度,优化了分词质量。迁移过程中发现了存储空间和内存使用的问题,后续将继续调试和优化。
在过去两周,我对RawWeb进行了两项重要改进:引入SimHash算法进行文档去重,并将数据从Elasticsearch迁移到Meilisearch以降低运营成本。成功清理了56000个相似文档,但在Meilisearch上遇到了一些内存和性能挑战。
完成下面两步后,将自动完成登录并继续当前操作。