小红花·文摘

使用 Amazon S3 Tables 优化数据湖：从Hudi 迁移到托管 Iceberg

亚马逊AWS官方博客 ·

本文探讨了分布式OLAP查询引擎（如Trino、Spark、DuckDB）的优化与MPP执行，分析了SQL从解析到执行的各个阶段，包括逻辑与物理优化、执行模型和下推机制，旨在帮助数据平台工程师和架构负责人理解交互式SQL在数据湖上的应用与性能调优。

【分布式 OLAP 查询引擎】Trino · Spark · DuckDB · 优化与 MPP 执行

土法炼钢兴趣小组的博客 ·

本文探讨了数据湖与开放表格式的关系，分析了Hive表的局限性及其在对象存储中的应用问题。Hive表依赖目录重命名，缺乏原子提交，导致部分提交和并发写入问题。开放表格式（如Iceberg、Delta、Hudi）通过将表拆分为不可变数据文件、可变元数据和原子切换的catalog指针，解决了这些问题，实现了在对象存储上支持ACID和时间旅行的能力。

【数据湖与开放表格式】Lakehouse 全景：从 Hive 表到开放表格式

土法炼钢兴趣小组的博客 ·

本文探讨了Parquet文件的结构与性能优化，包括数据的物理切分（行组、列块、页面）、元数据存储方式，以及通过裁剪元数据（如列索引、偏移索引、布隆过滤器）提高查询效率。Parquet采用“先写数据、后写元数据”的设计，文件尾部包含所有统计信息，支持高效的谓词下推和投影下推，显著减少读取数据的IO量。

【数据湖与开放表格式】Parquet 文件格式深拆

土法炼钢兴趣小组的博客 ·

ORC和Parquet是两种列式存储格式，分别源自Hive和Twitter/Cloudera。ORC适合Hive事务表，支持ACID，且在整数和时间戳数据上压缩效果好。Parquet是跨引擎的通用格式，广泛应用于AI和数据分析工具。选择时需考虑具体应用场景和数据特性。

【数据湖与开放表格式】ORC 文件格式与 Parquet 对照

土法炼钢兴趣小组的博客 ·

Apache Arrow 旨在解决不同系统间的数据内存表示问题，通过定义一种与语言无关的列式内存格式，实现零拷贝共享。其内存布局包括有效性位图和数据缓冲区，支持高效分析运算。C 数据接口允许在同一进程中无拷贝传递数据，而 IPC 和 Flight 则支持跨进程和网络传输。Arrow 与 Parquet 互补，前者优化内存计算，后者优化磁盘存储。

【数据湖与开放表格式】Apache Arrow 内存格式与零拷贝

土法炼钢兴趣小组的博客 ·

本章探讨了Parquet格式的编码与压缩机制，强调编码降熵与通用压缩的两层结构。实测结果显示，低基数列适合字典编码，近似等差整数列使用差分编码效果最佳，而高熵随机数据则难以压缩。总结了编码与压缩的选择原则，强调匹配数据模式的重要性。

本文讨论了对象存储（如S3）与POSIX文件系统的关键差异，强调对象存储的强一致性、重命名操作的高成本及条件写的重要性。对象存储不支持原子重命名，导致重命名变为逐个复制和删除，增加了成本。此外，列出对象的代价随对象数量线性增长，影响数据处理效率。条件写（如If-None-Match）为原子提交提供了支点，解决了并发写入的问题。整体上，文章探讨了对象存储在数据湖架构中的局限性及其对表格式设计的影响。

【数据湖与开放表格式】对象存储语义与代价

土法炼钢兴趣小组的博客 ·

本文讨论了对象存储中目录式分区表的缺陷，如并发写入导致的部分提交、查询规划成本高和缺乏快照隔离。为解决这些问题，开放表格式（如Iceberg、Delta、Hudi）提供了原子提交、快照隔离、文件级统计裁剪和schema演进等功能，确保数据一致性和高效查询。

【数据湖与开放表格式】表格式为什么存在

土法炼钢兴趣小组的博客 ·

Iceberg通过四层不可变元数据树解决了对象存储中的目录管理问题。这四层分别存储表的状态、快照信息、manifest列表和数据文件，确保原子提交和快照隔离。查询时，Iceberg利用元数据快速定位数据文件，避免了传统方法中的高成本LIST操作，并支持高效的分区裁剪和文件裁剪，提升查询性能。

【数据湖与开放表格式】Iceberg 元数据树

土法炼钢兴趣小组的博客 ·

Iceberg通过隐藏分区和分区演进解决了Hive的分区问题。隐藏分区允许用户在数据列上写谓词，系统自动裁剪分区，避免全表扫描。分区演进则允许在不重写历史数据的情况下修改分区方案，保留旧数据的同时新增分区规范。这些设计提高了数据管理的灵活性和效率。

【数据湖与开放表格式】隐藏分区与分区演进

土法炼钢兴趣小组的博客 ·

在Iceberg中，数据文件不可变，删除行可通过写时复制（CoW）和读时合并（MoR）两种方式实现。CoW重写整个文件，写放大高；MoR则写删除标记，适合高频删除。V3引入删除向量（DV），提高了删除效率。选择CoW或MoR取决于删除频率和读写性能需求。实验表明，CoW在删除时重写大量数据，而MoR需定期合并以避免性能下降。