土法炼钢兴趣小组的博客 ·

【数据湖与开放表格式】Parquet 文件格式深拆

💡 原文中文，约22300字，阅读约需53分钟。

📝

内容提要

本文探讨了Parquet文件的结构与性能优化，包括数据的物理切分（行组、列块、页面）、元数据存储方式，以及通过裁剪元数据（如列索引、偏移索引、布隆过滤器）提高查询效率。Parquet采用“先写数据、后写元数据”的设计，文件尾部包含所有统计信息，支持高效的谓词下推和投影下推，显著减少读取数据的IO量。

🎯

关键要点

Parquet 文件采用「先写数据、最后写元数据」的格式，文件结构包括 row group、column chunk 和 page。
Parquet 的物理结构是三级嵌套，分别为 FileMetaData、RowGroup 和 ColumnChunk，支持高效的并行读写。
每个 column chunk 包含多个 page，page 是最小的编解码和压缩单位，支持多种编码方式以优化存储。
Parquet 使用 definition level 和 repetition level 来处理嵌套和可空数据，能够高效存储复杂数据结构。
通过裁剪元数据（如 column chunk 统计、page index 和 bloom filter），Parquet 能在读取数据前跳过不相关部分，提高查询效率。
谓词下推和投影下推是 Parquet 优化 IO 的关键策略，能够减少读取的数据量。
Parquet 的设计使其在处理大规模数据时，能够有效减少 IO 操作，提高查询性能。

🔎

延伸解读

Parquet 文件的物理结构

Parquet 文件采用三级嵌套结构，包括 FileMetaData、RowGroup 和 ColumnChunk。这种设计使得数据可以高效地进行并行读写，适合大规模数据处理。每个 RowGroup 内的 ColumnChunk 进一步细分为多个 Page，优化了存储和读取效率。理解这一结构有助于在实际应用中更好地利用 Parquet 格式的优势。

元数据裁剪的性能提升

Parquet 文件通过裁剪元数据（如 column index、offset index 和 bloom filter）来提高查询效率。这种裁剪机制允许在读取数据前跳过不相关部分，从而显著减少 I/O 操作。特别是在处理高基数列时，bloom filter 的使用能够有效排除不必要的读取，提升查询性能。

编码与压缩的选择

在 Parquet 中，选择合适的编码和压缩方式对存储效率至关重要。不同的数据类型适合不同的编码策略，例如，单调数列适合使用 DELTA_BINARY_PACKED 编码，而低基数列则更适合字典编码。了解数据的特性并合理选择编码和压缩方式，可以在保证性能的同时，最大限度地减少存储空间的占用。

❓

延伸问答

Parquet文件的基本结构是什么？

Parquet文件的基本结构包括row group、column chunk和page，采用先写数据、后写元数据的设计。

Parquet如何提高查询效率？

Parquet通过裁剪元数据（如列索引、偏移索引和布隆过滤器）来提高查询效率，支持谓词下推和投影下推，减少读取的数据量。

什么是定义层级和重复层级？

定义层级和重复层级是Parquet处理嵌套和可空数据的机制，分别用于编码null值的层级和list的边界。

Parquet文件的元数据存储在哪里？

Parquet文件的元数据存储在文件的尾部，包含所有统计信息和偏移量，以支持高效的读取。

Parquet文件的编码方式有哪些？

Parquet支持多种编码方式，包括PLAIN、RLE_DICTIONARY、DELTA_BINARY_PACKED等，以优化存储和压缩。

Parquet如何实现高效的并行读写？

Parquet的物理结构是三级嵌套，支持按row group并行读写，允许在不同列之间进行高效的IO操作。

🏷️