土法炼钢兴趣小组的博客 ·

【系统架构设计】时序数据架构：监控与 IoT 的存储设计

💡 原文中文，约30700字，阅读约需73分钟。

📝

内容提要

时序数据库（TSDB）专为处理大量时序数据而设计，传统关系型数据库难以应对。时序数据按时间顺序记录，写入频繁、读取稀少。本文分析了时序数据的特征、编码压缩原理、存储引擎设计及降采样策略，并对主流TSDB（如InfluxDB、Prometheus、TimescaleDB）进行了架构对比，为监控与物联网场景提供参考。

🎯

关键要点

时序数据库（TSDB）专为处理大量时序数据而设计，传统关系型数据库难以应对。
时序数据按时间顺序记录，写入频繁、读取稀少，存储引擎设计需优化写入性能。
时序数据的特征包括：时间戳、标签和度量值，写多读少的访问模式，以及高基数问题。
Gorilla编码是Facebook提出的高效时序数据压缩方案，利用Delta-of-Delta和XOR压缩技术。
LSM-Tree适合写入密集场景，通过顺序写入优化磁盘I/O，适配时序数据的特点。
降采样策略通过降低时间分辨率来减少数据量，同时保留趋势信息，常见策略包括多级保留策略。
InfluxDB、Prometheus和TimescaleDB是三大主流TSDB，各有特点和适用场景。
InfluxDB追求极致的写入性能，Prometheus定义了云原生监控的标准，TimescaleDB提供SQL兼容性。
在选择TSDB时，应考虑数据模型复杂度、查询需求、团队技术栈和运维能力等因素。

🔎

延伸解读

时序数据的特征与存储引擎设计

时序数据的写入频率远高于读取频率，这一特征要求存储引擎在写入性能上进行极致优化。设计时需考虑使用适合追加写入的结构，如LSM-Tree，以提高磁盘I/O效率。同时，数据的高基数问题也需关注，选择合适的索引策略以避免内存占用过高。

降采样策略的重要性

降采样策略在时序数据管理中至关重要，它通过降低数据的时间分辨率来减少存储需求，同时保留关键趋势信息。合理的降采样策略可以显著降低存储成本，并提高查询效率，尤其是在处理长时间跨度的数据时。

主流时序数据库的比较

InfluxDB、Prometheus和TimescaleDB各有特点，适用于不同场景。InfluxDB强调写入性能，适合高吞吐量需求；Prometheus则以拉取模型为主，适合云原生监控；而TimescaleDB则提供SQL兼容性，适合需要复杂查询的场景。选择时需根据团队技术栈和具体需求进行综合评估。

❓

延伸问答

时序数据库（TSDB）与传统关系型数据库有什么区别？

时序数据库专为处理大量时序数据而设计，优化了写入性能，适合写多读少的场景，而传统关系型数据库难以应对这种高频写入的需求。

Gorilla编码的主要原理是什么？

Gorilla编码利用Delta-of-Delta和XOR压缩技术，针对时序数据的时间戳和浮点数值进行高效压缩，显著减少存储开销。

LSM-Tree在时序数据存储中有什么优势？

LSM-Tree通过将随机写入转化为顺序写入，优化了写入吞吐量，适合时序数据的追加写入模式，且灵活的合并策略可以执行降采样和数据清理。

降采样策略的目的是什么？

降采样策略通过降低时间分辨率来减少数据量，同时保留趋势信息，避免在查询时处理过于密集的数据。

InfluxDB、Prometheus和TimescaleDB的主要区别是什么？

InfluxDB专注于极致的写入性能，Prometheus采用拉取模型进行云原生监控，而TimescaleDB则在PostgreSQL基础上扩展，支持复杂的SQL查询。

在选择时序数据库时应考虑哪些因素？

选择时序数据库时应考虑数据模型复杂度、查询需求、团队技术栈和运维能力等因素，以确保满足业务需求。

🏷️