Hardwood:一个全新的Apache Parquet解析器

Hardwood:一个全新的Apache Parquet解析器

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

Hardwood是一个全新的Parquet解析器,采用现代Java从头开发,遵循Parquet规范,尽量减少外部依赖。它通过多线程解码管道提升性能,显著加快解析速度。

🎯

关键要点

  • Hardwood是一个全新的Parquet解析器,采用现代Java从头开发。
  • Hardwood遵循Parquet规范,尽量减少外部依赖。
  • 唯一的外部依赖是可选的压缩算法库,如snappy或zstd。
  • Hardwood的一个主要目标是实现卓越的性能。
  • 多线程解码管道将解析工作分配到所有可用的CPU核心,显著加快解析速度。
➡️

继续阅读