土法炼钢兴趣小组的博客 ·

数据库内核实验索引

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文介绍了如何从零开始实现LSM-Tree存储引擎，涵盖日志、MemTable、SSTable、Bloom Filter和Compaction等核心概念，并提供完整的C代码、架构图和数学推导，深入探讨LSM-Tree的设计哲学及其在数据库中的应用。

🎯

🔎

LSM-Tree的设计旨在将随机写入转换为顺序写入，以提高写入性能。然而，这种设计也带来了数据在磁盘上反复读写的问题，可能导致存储效率下降。理解这一点对于优化数据库性能至关重要。

Compaction是LSM-Tree的核心过程，涉及多种策略的比较。不同的Compaction策略（如Leveled、Size-Tiered和Universal）在性能和存储效率上各有优劣，选择合适的策略可以显著影响数据库的整体表现。

在最坏情况下，读取数据时可能需要逐层搜索，甚至遍历所有层级。这意味着在设计数据库时，需要考虑到读取性能的潜在风险，尤其是在数据量较大时，可能会影响用户体验。

❓

LSM-Tree存储引擎的核心概念包括日志、MemTable、SSTable、Bloom Filter和Compaction。

Compaction是LSM-Tree的关键过程，涉及数据的合并和整理，以提高读取效率和减少空间占用。

从零实现LSM-Tree存储引擎需要理解其设计哲学，并实现日志、MemTable、SSTable等组件，最后整合成完整的引擎。

LSM-Tree通过将随机写转换为顺序写来优化写入性能，但这一过程可能导致数据在磁盘上被反复读写。

读取数据时，最坏情况下需要逐层搜索，可能遍历全部层级，旧版本数据和墓碑标记会占用额外空间。

LSM-Tree的设计哲学是通过将写入操作优化为顺序写来提高性能，同时需要平衡读取效率和存储空间。

🏷️