Planet PostgreSQL ·

李超：通过repack.c理解PostgreSQL REPACK

💡 原文英文，约1700词，阅读约需7分钟。

📝

内容提要

PostgreSQL 19的新特性REPACK通过重写表来物理压缩数据，类似于VACUUM，但创建新文件而非清理现有页面。REPACK CONCURRENTLY允许在操作期间保持表可用，使用快照复制并重放并发更改，确保逻辑身份不变，同时有效回收磁盘空间。

🎯

🔎

REPACK与传统的VACUUM有显著区别。VACUUM主要在现有存储中清理空间，而REPACK则通过重写表创建新的存储文件，能够更有效地回收磁盘空间。REPACK的设计使其在处理大数据量时，能够更好地保持表的可用性，尤其是在并发操作的场景中。

REPACK CONCURRENTLY模式允许在重写表的过程中继续对表进行读写操作，这在高并发环境中尤为重要。通过快照复制和逻辑解码，REPACK能够在不影响用户操作的情况下，完成数据的压缩和存储的更新，极大地提高了数据库的可用性和性能。

REPACK的核心实现涉及多个复杂的子系统，包括权限检查、索引重建和逻辑解码等。理解这些实现细节有助于开发者在使用PostgreSQL时，优化数据库性能和管理数据存储，尤其是在处理大规模数据时。

❓

REPACK是PostgreSQL 19的新特性，通过重写表来物理压缩数据，创建新的表文件而非清理现有页面。

REPACK创建新的表文件来压缩数据，而VACUUM主要是在现有页面内清理，通常无法完全返回空间给操作系统。

REPACK CONCURRENTLY允许在操作期间保持表可用，通过快照复制并重放并发更改，确保逻辑身份不变。

REPACK的核心工作在于cluster_rel()和rebuild_relation()，处理权限检查、关系检查和索引重建。

REPACK使用逻辑解码来处理在复制过程中发生的更改，确保新表在最终交换时是最新的。

REPACK的设计旨在缩短强锁阶段，以提高并发性能，同时有效回收磁盘空间。

🏷️