京东科技开发者 ·

ClickHouse内幕（1）数据存储与过滤机制

💡 原文中文，约5700字，阅读约需14分钟。

📝

内容提要

本文介绍了ClickHouse中的数据存储结构和索引结构，以及基于这些结构的数据过滤机制。

🎯

关键要点

本文介绍了ClickHouse中的数据存储结构和索引结构，以及数据过滤机制。
ClickHouse的数据存储采用分区和文件细分的方式，数据按分区键划分为多个分区。
每个分区包含多个Part，Part是ClickHouse中最小的存储单元。
Part内部文件组织包括主键索引文件、数据文件、元数据等。
ClickHouse的存储是列式的，每个列单独存储，索引结构通过排序和稀疏索引实现。
查询时，ClickHouse通过索引文件定位数据，使用Mark来表示一组有序数据。
KeyCondition用于检查范围矩阵是否满足过滤条件，支持Part裁剪和Mark裁剪。
Part裁剪通过最大最小值索引和分区表达式进行，过滤掉不相关的Part。
Mark裁剪是对Part内部数据的进一步过滤，最小粒度为Mark。
Row过滤在查询执行阶段进行，使用Filter Mask和SIMD技术优化性能。
Filter Mask用于标记符合过滤条件的行，分组处理提高了过滤效率。
使用SIMD指令集优化过滤过程，但需考虑数据分布情况。

❓

延伸问答

ClickHouse的数据存储结构是怎样的？

ClickHouse的数据存储采用分区和文件细分的方式，数据按分区键划分为多个分区，每个分区包含多个Part，Part是最小的存储单元。

ClickHouse如何实现数据过滤？

ClickHouse通过Part裁剪、Mark裁剪和Row过滤机制实现数据过滤，利用索引文件和SIMD技术优化查询性能。

什么是Part和Mark在ClickHouse中的作用？

Part是ClickHouse中最小的存储单元，Mark表示一组有序数据，二者在数据存储和索引结构中起到关键作用。

ClickHouse的Row过滤是如何优化的？

Row过滤使用Filter Mask和SIMD技术进行优化，通过分组处理提高过滤效率，减少CPU流水线的破坏。

ClickHouse的索引结构是如何构建的？

ClickHouse的索引结构通过对数据进行排序和形成稀疏索引来构建，使用Mark来表示数据的有序性。

在ClickHouse中，如何进行Part裁剪？

Part裁剪通过最大最小值索引和分区表达式进行，过滤掉不相关的Part，以提高查询效率。

🏷️

标签

ClickHouse 存储数据存储结构数据过滤机制索引结构

➡️

继续阅读

谷歌推出Chrome for Linux Arm64原生版支持账号数据同步和DRM数字版权保护机制
#软件资讯终于！谷歌推出 Chrome for Linux Arm64 原生版，附带 Widevine DRM 版权保护机制，可观看各类视频网站。值得注...
后训练正成为真正前沿：Kimi K3九大专家蒸馏灌顶内幕
训练会杀死创造力，把AI变成另外一个搜索引擎，但后训练每天用强化学习重新发明人类思维，难道这不算另一种更狠的格式化。 AI圈最近三年在卷什么，后训练。这...
千百度并购本原智数成港股AI数据标注第一股
(全球TMT 2026年07月28日讯)通过战略并购国内顶尖AI数据服务商本原智数，昔日的女鞋零售商千百度已成 […]
Jensen Huang says AI agents could drive a 5-10x computing boom: “100 billion agents and billions of robots”
This week during an interview with Bloomberg, Jensen Huang made quite the pre...
AI leaders sign a statement asking the government to do something about automated AI
Employees of OpenAI and Anthropic, as well as Google, Meta, Thinking Machines...
Is it illegal to trick the US government into wiping your phone during a questionably legal search?
A Georgia man was charged with a felony for allegedly wiping his phone while ...