小红花·文摘 - 小红花技术领袖俱乐部

本文探讨了Rabin-Karp算法及其在字符串匹配中的应用，强调了滚动哈希的高效性和简单性。文章介绍了多项式哈希的数学基础、碰撞概率分析，以及在抄袭检测和数据去重等实际场景中的应用。Rabin-Karp算法通过预计算模式串哈希值并使用滚动哈希遍历文本，有效匹配多个模式。此外，文章还讨论了Buzhash和Content-Defined Chunking等技术，展示了滚动哈希的广泛应用和优势。

字符串哈希：Rabin-Karp 与滚动哈希

土法炼钢兴趣小组的博客 ·

Linux 数据去重的核心思想是只存储唯一数据块，通过引用共享重复数据。去重过程包括分块、指纹计算、索引和复用。主要方案有 Btrfs、ZFS 和 dm-vdo，各有优缺点。去重适合备份和虚拟机场景，但需注意性能和内存管理。未来将优化去重算法，提升效率。

Linux 数据去重学习笔记

暗无天日 ·

哈希、存储、连接：使用ES|QL LOOKUP JOIN的现代日志去重解决方案

哈希、存储、连接：使用ES|QL LOOKUP JOIN的现代日志去重解决方案

Elastic Blog - Elasticsearch, Kibana, and ELK Stack ·

Go 1.23的颠覆性unique包：提升数据去重效率

Go 1.23的颠覆性unique包：提升数据去重效率

DEV Community ·

在大数据时代，数据去重是确保数据质量的重要步骤。本文介绍了如何使用Apache Spark进行高级去重，包括模糊匹配和基于图的连接组件。这些方法提高了机器学习管道的数据质量和模型性能。Spark的分布式计算能力使其适合处理大规模数据集。

使用 Apache Spark 进行高级去重：机器学习管道指南

DEV Community ·

本文介绍了数据库中数据去重的应用场景、方法和实战案例。提供了随机保留、按优先级保留和合并保留等多种去重方法，并给出了提高效率的建议。强调了以业务为导向的去重原则。

实例讲解数据库的数据去重

华为云官方博客 ·

人力家使用阿里云MaxCompute的Transaction Table2.0表类型解决了增量数据去重成本大的问题，降低了计算成本和时间。他们介绍了数据合并方式和数据时空旅行查询功能，并建议使用Clustering机制合并小文件。未来规划和注意事项也被提及。

人力家：用 MaxCompute 事务表2.0主键模型去重数据持续降本增效

阿里云云栖号 ·