土法炼钢兴趣小组的博客 ·

【rsync 原理】差异同步算法：滚动校验与两级匹配

💡 原文中文，约10100字，阅读约需24分钟。

📝

内容提要

rsync算法通过两级校验匹配实现高效文件同步。发送端与接收端各自持有新旧文件，发送端无法读取接收端的旧文件。算法首先将旧文件切块并计算校验和，通过弱校验快速筛选匹配块，再用强校验确认，从而仅传输文件间的差异，减少网络传输量。整体设计确保在不知旧文件内容的情况下，依然能高效同步文件。

🎯

🔎

rsync算法通过两级校验匹配，能够在不读取接收端旧文件的情况下，快速识别新旧文件间的差异。这种设计使得在网络传输中，仅需传输必要的数据，极大地减少了带宽消耗，尤其适合文件间存在大量可对齐相同片段的情况。

rsync算法中的块大小选择直接影响其效率。默认情况下，rsync使用平方根启发式来平衡块大小与签名开销。块过大可能导致复用率下降，而块过小则会增加签名的带宽消耗。因此，合理的块大小选择是确保算法高效运行的关键。

尽管rsync算法在许多场景下表现优异，但在某些情况下可能不适用。例如，当文件几乎完全变更时，差异同步的开销可能超过直接传输整个文件的成本。此外，对于海量小文件，元数据处理可能成为瓶颈，因此在使用rsync时需考虑具体应用场景。

❓

rsync算法通过两级校验匹配，发送端与接收端各自持有新旧文件，发送端无法读取接收端的旧文件。算法将旧文件切块并计算校验和，通过弱校验快速筛选匹配块，再用强校验确认，从而仅传输文件间的差异。

弱校验用于快速筛选匹配块，计算成本低但不可靠；强校验在弱校验通过后进行，确保匹配的可靠性，计算成本高但可信度高。

rsync算法不适用于文件几乎全变的情况（如重新生成、压缩包重打、加密文件），因为旧块基本匹配不上，差异同步反而会增加计算开销。

rsync默认使用平方根启发式来选择块大小，以平衡块大小与签名开销，确保在文件增长时，块数和块长都随之增加。

rsync算法通过将旧文件切块并计算校验和，发送端用弱校验和强校验的组合来识别新旧文件间的差异，确保只传输必要的数据。

rsync算法的设计核心是实现高频试探的高效性，通过O(1)的增量更新的弱校验，使得逐字节的试探变得高效。

🏷️