Hardwood:一个新的Apache Parquet解析器

Hardwood:一个新的Apache Parquet解析器

💡 原文英文,约2100词,阅读约需8分钟。
📝

内容提要

今天发布了Hardwood,这是一个新的Apache Parquet文件格式解析器,旨在减少依赖并提高性能。Hardwood是开源的,支持Java 21及以上版本,采用多线程解码管道显著加快解析速度,支持行和列两种API,适用于多种数据处理场景。未来计划增加对谓词下推的支持,并实现与parquet-java的兼容层。

🎯

关键要点

  • 今天发布了Hardwood,这是一个新的Apache Parquet文件格式解析器,旨在减少依赖并提高性能。
  • Hardwood是开源的,支持Java 21及以上版本,采用多线程解码管道显著加快解析速度。
  • Hardwood支持行和列两种API,适用于多种数据处理场景。
  • 未来计划增加对谓词下推的支持,并实现与parquet-java的兼容层。
  • Hardwood避免了外部依赖,除了可选的压缩算法库。
  • Hardwood的多线程解码管道可以显著提高解析速度,充分利用可用的CPU核心。
  • Hardwood提供了RowReader和ColumnReader两种API,分别适用于复杂嵌套记录和高性能需求。
  • 项目未来计划增加对写入Parquet文件的支持,并可能提供用于检查和分析Parquet文件的CLI工具。

延伸问答

Hardwood是什么?

Hardwood是一个新的Apache Parquet文件格式解析器,旨在减少依赖并提高性能。

Hardwood支持哪些编程语言?

Hardwood支持Java 21及以上版本。

Hardwood的性能优势是什么?

Hardwood采用多线程解码管道,显著提高了解析速度,充分利用可用的CPU核心。

Hardwood提供了哪些API?

Hardwood提供了行API(RowReader)和列API(ColumnReader),适用于不同的数据处理需求。

Hardwood未来有哪些计划?

未来计划增加对谓词下推的支持,并实现与parquet-java的兼容层。

如何在项目中使用Hardwood?

可以通过在Maven中添加Hardwood作为项目依赖来使用它。

➡️

继续阅读