小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Hardwood达到Beta版:S3、谓词下推、命令行工具及更多功能

Hardwood 1.0.0.Beta1发布,作为Apache Parquet的新解析器,优化了依赖和性能。新增S3后端支持直接解析远程文件,支持谓词下推和列投影,减少网络I/O。同时推出命令行工具,方便用户查看Parquet文件的元数据和内容。未来将专注于性能优化和API稳定性。

Hardwood达到Beta版:S3、谓词下推、命令行工具及更多功能

morling.dev -- Blog
morling.dev -- Blog · 2026-04-02T18:20:00Z
Hardwood:一个新的Apache Parquet解析器

今天发布了Hardwood,这是一个新的Apache Parquet文件格式解析器,旨在减少依赖并提高性能。Hardwood是开源的,支持Java 21及以上版本,采用多线程解码管道显著加快解析速度,支持行和列两种API,适用于多种数据处理场景。未来计划增加对谓词下推的支持,并实现与parquet-java的兼容层。

Hardwood:一个新的Apache Parquet解析器

morling.dev -- Blog
morling.dev -- Blog · 2026-02-26T12:30:00Z
介绍Variant:Apache Parquet™、Delta Lake和Apache Iceberg™中半结构化数据的新开放标准

半结构化数据在AI和应用日志中普遍存在,但模式变化导致存储和查询困难。Apache Parquet™的Variant数据类型以紧凑的二进制格式存储数据,提升查询性能,并被Delta Lake和Apache Iceberg™采纳。通过二进制编码和分片技术,Variant提高数据处理效率,减少I/O和存储需求。

介绍Variant:Apache Parquet™、Delta Lake和Apache Iceberg™中半结构化数据的新开放标准

Databricks
Databricks · 2025-10-10T10:37:57Z

Parquet.Net是一个用于读取和写入Apache Parquet文件的纯.NET库,支持.NET 4.5及以上版本和.NET Standard 1.4及以上版本。它可以在多个操作系统和设备上运行。Parquet.Net提供了低级API和高级API,支持动态模式和自动序列化C#类为Parquet文件。Parquet是一种高效的列式存储格式。Parquet.Net是世界上最快的Parquet库,提供列式存储、高效的数据读取和低级API使用等功能。

Parquet.Net: 将 Apache Parquet 移植到 .NET - 张善友

张善友
张善友 · 2024-09-19T23:26:00Z
20240611的胡言乱语

本文介绍了使用Apache Parquet替代CSV文件格式、复制30年前的笔记本电脑文件、调查调制解调器被黑客入侵的故事、Mac用户的优秀应用程序集合、BitTorrent索引器和Kafka集群管理平台等有趣的技术话题,同时提到了一些有用的工具和资源。

20240611的胡言乱语

bboysoul的博客
bboysoul的博客 · 2024-06-11T14:50:00Z

Apache Parquet是一种流行的列式存储格式,使用pyarrow包可以轻松读写Parquet文件。可以转换DataFrame为Parquet文件,并选择只读取部分列。还可以从Parquet文件获取元数据和架构信息。pyarrow使得处理Parquet文件变得简单。

Python中读写Parquet文件的方法

极道
极道 · 2024-05-13T02:17:00Z
如何使用Python读写Parquet文件

Apache Parquet是一种流行的列式存储格式,使用pyarrow包可以方便地读写Parquet文件,读取部分列而不是整个文件,获取元数据和模式。

如何使用Python读写Parquet文件

Mouse Vs Python
Mouse Vs Python · 2024-05-06T13:57:46Z

InfluxDB是一个用Rust编写的开源时间序列数据库,使用Apache Arrow、Apache Parquet和Apache DataFusion作为基础构建模块。他们最终使用了Apache Arrow、Apache Parquet、Apache DataFusion和FlightSQL来构建数据库。

InfluxDB正式从Go切换到Rust

极道
极道 · 2023-09-29T22:40:00Z
无缝迁移您的Apache Parquet数据湖至Delta Lake

本文介绍了Apache Parquet和Delta Lake两种大数据存储格式,以及将Apache Parquet数据湖迁移到Delta Lake的方法。Delta Lake是一种完全符合ACID的数据存储格式,具有时间旅行、回滚、模式强制和模式演化等功能。

无缝迁移您的Apache Parquet数据湖至Delta Lake

Databricks
Databricks · 2023-06-06T09:50:25Z
Python Bootcamp 112

本文介绍了一门初学者的计算机科学和Python编程课程,使用Python 3.5编程语言。同时,介绍了使用Apache Parquet实现高并行IO性能的方法和使用Dask并行化Scikit-Learn操作的两种简单方法。最后,提到了一些Python相关的包、模块和库。

Python Bootcamp 112

蠎周刊
蠎周刊 · 2017-02-20T15:32:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码