💡
原文英文,约2100词,阅读约需8分钟。
📝
内容提要
今天发布了Hardwood,这是一个新的Apache Parquet文件格式解析器,旨在减少依赖并提高性能。Hardwood是开源的,支持Java 21及以上版本,采用多线程解码管道显著加快解析速度,支持行和列两种API,适用于多种数据处理场景。未来计划增加对谓词下推的支持,并实现与parquet-java的兼容层。
🎯
关键要点
- 今天发布了Hardwood,这是一个新的Apache Parquet文件格式解析器,旨在减少依赖并提高性能。
- Hardwood是开源的,支持Java 21及以上版本,采用多线程解码管道显著加快解析速度。
- Hardwood支持行和列两种API,适用于多种数据处理场景。
- 未来计划增加对谓词下推的支持,并实现与parquet-java的兼容层。
- Hardwood避免了外部依赖,除了可选的压缩算法库。
- Hardwood的多线程解码管道可以显著提高解析速度,充分利用可用的CPU核心。
- Hardwood提供了RowReader和ColumnReader两种API,分别适用于复杂嵌套记录和高性能需求。
- 项目未来计划增加对写入Parquet文件的支持,并可能提供用于检查和分析Parquet文件的CLI工具。
❓
延伸问答
Hardwood是什么?
Hardwood是一个新的Apache Parquet文件格式解析器,旨在减少依赖并提高性能。
Hardwood支持哪些编程语言?
Hardwood支持Java 21及以上版本。
Hardwood的性能优势是什么?
Hardwood采用多线程解码管道,显著提高了解析速度,充分利用可用的CPU核心。
Hardwood提供了哪些API?
Hardwood提供了行API(RowReader)和列API(ColumnReader),适用于不同的数据处理需求。
Hardwood未来有哪些计划?
未来计划增加对谓词下推的支持,并实现与parquet-java的兼容层。
如何在项目中使用Hardwood?
可以通过在Maven中添加Hardwood作为项目依赖来使用它。
➡️