小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

ORC和Parquet是两种列式存储格式,分别源自Hive和Twitter/Cloudera。ORC适合Hive事务表,支持ACID,且在整数和时间戳数据上压缩效果好。Parquet是跨引擎的通用格式,广泛应用于AI和数据分析工具。选择时需考虑具体应用场景和数据特性。

【数据湖与开放表格式】ORC 文件格式与 Parquet 对照

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-06-30T00:00:00Z

本文探讨了Parquet文件的结构与性能优化,包括数据的物理切分(行组、列块、页面)、元数据存储方式,以及通过裁剪元数据(如列索引、偏移索引、布隆过滤器)提高查询效率。Parquet采用“先写数据、后写元数据”的设计,文件尾部包含所有统计信息,支持高效的谓词下推和投影下推,显著减少读取数据的IO量。

【数据湖与开放表格式】Parquet 文件格式深拆

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-06-30T00:00:00Z

Apache Arrow 旨在解决不同系统间的数据内存表示问题,通过定义一种与语言无关的列式内存格式,实现零拷贝共享。其内存布局包括有效性位图和数据缓冲区,支持高效分析运算。C 数据接口允许在同一进程中无拷贝传递数据,而 IPC 和 Flight 则支持跨进程和网络传输。Arrow 与 Parquet 互补,前者优化内存计算,后者优化磁盘存储。

【数据湖与开放表格式】Apache Arrow 内存格式与零拷贝

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-06-30T00:00:00Z
Hardwood 1.0:一个快速、轻量级的Apache Parquet读取器,适用于JVM

Hardwood是一个为JVM开发的新Parquet库,专注于快速读取Apache Parquet文件,支持多线程和无强制依赖。1.0版本已发布,兼容Java 21及以上,开源并可从Maven Central获取。它支持多种列类型和压缩方案,提供行读取和列读取两种API,适合不同的使用场景。未来版本将增加写入支持和性能优化。

Hardwood 1.0:一个快速、轻量级的Apache Parquet读取器,适用于JVM

morling.dev -- Blog
morling.dev -- Blog · 2026-06-25T05:30:00Z
第737期:Polars 1.41、电子邮件、优秀文档及更多内容(2026-06-02)

Polars 1.41版本发布,新增快速的parquet元数据解码和嵌套子计划消除等功能。

第737期:Polars 1.41、电子邮件、优秀文档及更多内容(2026-06-02)

PyCoder’s Weekly
PyCoder’s Weekly · 2026-06-02T19:30:00Z
VARIANT支持,交互式Parquet文件TUI:Hardwood 1.0.0.Beta2发布

Hardwood 1.0.0.Beta2发布,新增对VARIANT列的支持,提供交互式文本用户界面(TUI),提升性能,优化对象存储文件读取。VARIANT类型适用于存储半结构化数据,CLI新增dive命令以便分析Parquet文件,并优化了核心页面获取和解码流程,提升读取效率,支持更多Parquet逻辑类型。

VARIANT支持,交互式Parquet文件TUI:Hardwood 1.0.0.Beta2发布

morling.dev -- Blog
morling.dev -- Blog · 2026-04-29T17:45:00Z
VARIANT支持,交互式Parquet文件TUI:Hardwood 1.0.0.Beta2发布

Hardwood 1.0.0.Beta2发布,新增对VARIANT列的支持,提供交互式文本用户界面(TUI),提升性能,优化对象存储文件读取。VARIANT类型适用于存储半结构化数据,CLI新增dive命令以便分析Parquet文件,核心页面获取和解码流程也得到了优化,支持更多Parquet逻辑类型。

VARIANT支持,交互式Parquet文件TUI:Hardwood 1.0.0.Beta2发布

morling.dev -- Blog
morling.dev -- Blog · 2026-04-29T17:45:00Z
用 Kiro CLI 自动搭建 FluentBit 日志采集方案:两种 EKS 埋点数据落地 S3 Parquet 的实战对比

本文介绍了如何使用Kiro CLI和Amazon EKS MCP Server自动搭建FluentBit日志采集方案,并比较了两种将EKS埋点数据转存为S3 Parquet格式的方案。方案A需自编译镜像,适合追求简洁架构的用户;方案B通过Firehose和Glue实现转换,适合需要Schema管理的场景。Kiro CLI显著提升了搭建效率,简化了复杂操作。

用 Kiro CLI 自动搭建 FluentBit 日志采集方案:两种 EKS 埋点数据落地 S3 Parquet 的实战对比

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-04-24T09:54:20Z
使用Python、Parquet和DuckDB构建现代数据分析架构

现代数据分析可以通过使用Parquet文件和DuckDB简化,直接查询数据,避免传统数据库的复杂性。这种方法提高了分析效率,适合批量处理结构化数据。

使用Python、Parquet和DuckDB构建现代数据分析架构

KDnuggets
KDnuggets · 2026-02-10T15:00:03Z
AI/BI仪表板性能优化的十大最佳实践(第二部分)

本文探讨了优化Databricks AI/BI仪表板性能的关键因素,包括仓库选择、数据建模和文件布局。建议使用星型模式和整数连接键以提升查询效率,同时采用Parquet优化技术减少查询数据量,并利用智能工作负载管理增强并发处理能力。

AI/BI仪表板性能优化的十大最佳实践(第二部分)

Databricks
Databricks · 2026-02-04T22:40:00Z
CSV、Parquet 和 Arrow:存储格式解析

Hugging Face Datasets 提供了加载数据集的简便方法,支持 CSV、Parquet 和 Arrow 格式。CSV 适合小数据集但性能较差;Parquet 适合批处理,支持压缩和快速查询;Arrow 在内存中操作,速度快,适合快速训练。选择合适的格式可以提高数据处理效率。

CSV、Parquet 和 Arrow:存储格式解析

KDnuggets
KDnuggets · 2026-01-13T15:00:55Z
Parquet?什么是Parquet?

Parquet是一种高效的列式存储格式,适合分析查询。文章分析了其内部结构及优化方法,如行组大小、压缩和编码对性能的影响。优化后,查询速度显著提升,行组大小调整带来了28倍的性能提升。了解Parquet特性有助于提高数据处理效率。

Parquet?什么是Parquet?

DEV Community
DEV Community · 2025-05-26T07:02:38Z
安全扩展:Cloudflare在全球服务健康指标和软件发布方面的策略

Cloudflare的健康介导部署(HMD)通过数据驱动的方式自动化软件更新,利用Thanos系统监控服务性能,及时识别和回滚问题代码,显著提高查询处理效率,减少批处理时间,并探索基于Parquet的时间序列存储以优化可观察性基础设施。

安全扩展:Cloudflare在全球服务健康指标和软件发布方面的策略

The Cloudflare Blog
The Cloudflare Blog · 2025-05-05T14:00:00Z
使用Parquet文件处理大规模数据:优缺点

Parquet是一种开源列式存储格式,适用于Apache Spark和Hadoop等大数据处理框架。它通过列存储提供高压缩率和查询性能,支持模式演变,兼容多种大数据工具。尽管写入速度较慢,不适合实时流处理或小数据集,但非常适合大规模分析工作负载。

使用Parquet文件处理大规模数据:优缺点

DEV Community
DEV Community · 2025-04-23T01:48:18Z
将文件上传至S3

本文介绍了如何将Spark生成的Parquet文件上传至S3,步骤包括将数据写入本地磁盘、定位Parquet文件、构建S3路径,并使用boto3进行文件上传。

将文件上传至S3

DEV Community
DEV Community · 2025-03-26T15:11:45Z
使用DuckDB、Quarkus和Kotlin将Parquet文件转换为可查询的RESTful API

本文介绍如何结合Quarkus和Kotlin构建轻量级RESTful API,定期从S3加载Parquet文件,并通过HTTP提供数据,使用Jdbi简化请求处理,配置查询模板,实现高效API。

使用DuckDB、Quarkus和Kotlin将Parquet文件转换为可查询的RESTful API

DEV Community
DEV Community · 2025-02-23T16:02:53Z
Parquet的两个版本

DuckDB的文章指出,查询引擎对Parquet文件的处理限制了格式的演变,因其未完全支持最新规范。尽管Parquet版本2已确定,但生态系统内的工具未能全面实现,导致兼容性问题。新编码提高了数据压缩效率,但版本2的采用率仍低,兼容性问题尚未解决。

Parquet的两个版本

DEV Community
DEV Community · 2025-02-20T06:00:00Z
数据缩略语过载:ETL与ELT、数据湖与数据仓库、Parquet与CSV,以及更多

本文介绍了数据处理中的常见术语,包括ETL与ELT、数据湖与数据仓库、CSV与Parquet。ETL在加载前转换数据,而ELT在加载后转换。数据仓库适合结构化分析,数据湖用于存储原始数据。CSV格式简单易读但处理速度慢,Parquet则高效压缩,适合大数据处理。理解这些术语有助于做出更好的决策。

数据缩略语过载:ETL与ELT、数据湖与数据仓库、Parquet与CSV,以及更多

DEV Community
DEV Community · 2025-01-30T19:38:41Z
数据格式 - 如何及何时使用

本文介绍了四种数据格式:CSV、JSON、Avro和Parquet,分析了它们的优缺点及适用场景。CSV适合简单表格数据,JSON适合复杂结构,Avro确保数据一致性,适合高效序列化,Parquet则适合大数据分析,存储效率高。

数据格式 - 如何及何时使用

DEV Community
DEV Community · 2025-01-17T15:54:23Z
测试

该应用使用Streamlit构建,支持读取Excel和CSV文件,清理数据并生成Parquet文件。用户可选择文件夹,查看合并或单个文件的数据,并提供多种视图模式、搜索和过滤功能,便于数据分析。

测试

DEV Community
DEV Community · 2024-12-22T01:57:25Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码