Hardwood 1.0.0.Beta1发布,作为Apache Parquet的新解析器,优化了依赖和性能。新增S3后端支持直接解析远程文件,支持谓词下推和列投影,减少网络I/O。同时推出命令行工具,方便用户查看Parquet文件的元数据和内容。未来将专注于性能优化和API稳定性。
今天发布了Hardwood,这是一个新的Apache Parquet文件格式解析器,旨在减少依赖并提高性能。Hardwood是开源的,支持Java 21及以上版本,采用多线程解码管道显著加快解析速度,支持行和列两种API,适用于多种数据处理场景。未来计划增加对谓词下推的支持,并实现与parquet-java的兼容层。
完成下面两步后,将自动完成登录并继续当前操作。