小红花·文摘 - 小红花技术领袖俱乐部

ORC和Parquet是两种列式存储格式，分别源自Hive和Twitter/Cloudera。ORC适合Hive事务表，支持ACID，且在整数和时间戳数据上压缩效果好。Parquet是跨引擎的通用格式，广泛应用于AI和数据分析工具。选择时需考虑具体应用场景和数据特性。

【数据湖与开放表格式】ORC 文件格式与 Parquet 对照

土法炼钢兴趣小组的博客 ·

本文探讨了Parquet文件的结构与性能优化，包括数据的物理切分（行组、列块、页面）、元数据存储方式，以及通过裁剪元数据（如列索引、偏移索引、布隆过滤器）提高查询效率。Parquet采用“先写数据、后写元数据”的设计，文件尾部包含所有统计信息，支持高效的谓词下推和投影下推，显著减少读取数据的IO量。

【数据湖与开放表格式】Parquet 文件格式深拆

土法炼钢兴趣小组的博客 ·

Apache Arrow 旨在解决不同系统间的数据内存表示问题，通过定义一种与语言无关的列式内存格式，实现零拷贝共享。其内存布局包括有效性位图和数据缓冲区，支持高效分析运算。C 数据接口允许在同一进程中无拷贝传递数据，而 IPC 和 Flight 则支持跨进程和网络传输。Arrow 与 Parquet 互补，前者优化内存计算，后者优化磁盘存储。

【数据湖与开放表格式】Apache Arrow 内存格式与零拷贝

土法炼钢兴趣小组的博客 ·

Hardwood 1.0：一个快速、轻量级的Apache Parquet读取器，适用于JVM

Hardwood 1.0：一个快速、轻量级的Apache Parquet读取器，适用于JVM

morling.dev -- Blog ·

第737期：Polars 1.41、电子邮件、优秀文档及更多内容（2026-06-02）

第737期：Polars 1.41、电子邮件、优秀文档及更多内容（2026-06-02）

PyCoder’s Weekly ·

VARIANT支持，交互式Parquet文件TUI：Hardwood 1.0.0.Beta2发布

VARIANT支持，交互式Parquet文件TUI：Hardwood 1.0.0.Beta2发布

morling.dev -- Blog ·

VARIANT支持，交互式Parquet文件TUI：Hardwood 1.0.0.Beta2发布

VARIANT支持，交互式Parquet文件TUI：Hardwood 1.0.0.Beta2发布

morling.dev -- Blog ·

用 Kiro CLI 自动搭建 FluentBit 日志采集方案：两种 EKS 埋点数据落地 S3 Parquet 的实战对比

用 Kiro CLI 自动搭建 FluentBit 日志采集方案：两种 EKS 埋点数据落地 S3 Parquet 的实战对比

亚马逊AWS官方博客 ·

使用Python、Parquet和DuckDB构建现代数据分析架构

使用Python、Parquet和DuckDB构建现代数据分析架构

KDnuggets ·

AI/BI仪表板性能优化的十大最佳实践（第二部分）

AI/BI仪表板性能优化的十大最佳实践（第二部分）

Databricks ·

CSV、Parquet 和 Arrow：存储格式解析

CSV、Parquet 和 Arrow：存储格式解析

KDnuggets ·

Parquet？什么是Parquet？

Parquet？什么是Parquet？

DEV Community ·

安全扩展：Cloudflare在全球服务健康指标和软件发布方面的策略

安全扩展：Cloudflare在全球服务健康指标和软件发布方面的策略

The Cloudflare Blog ·

使用Parquet文件处理大规模数据：优缺点

使用Parquet文件处理大规模数据：优缺点

DEV Community ·

将文件上传至S3

将文件上传至S3

DEV Community ·

使用DuckDB、Quarkus和Kotlin将Parquet文件转换为可查询的RESTful API

使用DuckDB、Quarkus和Kotlin将Parquet文件转换为可查询的RESTful API

DEV Community ·

Parquet的两个版本

Parquet的两个版本

DEV Community ·

数据缩略语过载：ETL与ELT、数据湖与数据仓库、Parquet与CSV，以及更多

数据缩略语过载：ETL与ELT、数据湖与数据仓库、Parquet与CSV，以及更多

DEV Community ·

数据格式 - 如何及何时使用

数据格式 - 如何及何时使用

DEV Community ·

测试

DEV Community ·