小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
VARIANT支持,交互式Parquet文件TUI:Hardwood 1.0.0.Beta2发布

Hardwood 1.0.0.Beta2发布,新增对VARIANT列的支持,提供交互式文本用户界面(TUI),提升性能,优化对象存储文件读取。VARIANT类型适用于存储半结构化数据,CLI新增dive命令以便分析Parquet文件,并优化了核心页面获取和解码流程,提升读取效率,支持更多Parquet逻辑类型。

VARIANT支持,交互式Parquet文件TUI:Hardwood 1.0.0.Beta2发布

morling.dev -- Blog
morling.dev -- Blog · 2026-04-29T17:45:00Z
用 Kiro CLI 自动搭建 FluentBit 日志采集方案:两种 EKS 埋点数据落地 S3 Parquet 的实战对比

本文介绍了如何使用Kiro CLI和Amazon EKS MCP Server自动搭建FluentBit日志采集方案,并比较了两种将EKS埋点数据转存为S3 Parquet格式的方案。方案A需自编译镜像,适合追求简洁架构的用户;方案B通过Firehose和Glue实现转换,适合需要Schema管理的场景。Kiro CLI显著提升了搭建效率,简化了复杂操作。

用 Kiro CLI 自动搭建 FluentBit 日志采集方案:两种 EKS 埋点数据落地 S3 Parquet 的实战对比

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-04-24T09:54:20Z
使用Python、Parquet和DuckDB构建现代数据分析架构

现代数据分析可以通过使用Parquet文件和DuckDB简化,直接查询数据,避免传统数据库的复杂性。这种方法提高了分析效率,适合批量处理结构化数据。

使用Python、Parquet和DuckDB构建现代数据分析架构

KDnuggets
KDnuggets · 2026-02-10T15:00:03Z
AI/BI仪表板性能优化的十大最佳实践(第二部分)

本文探讨了优化Databricks AI/BI仪表板性能的关键因素,包括仓库选择、数据建模和文件布局。建议使用星型模式和整数连接键以提升查询效率,同时采用Parquet优化技术减少查询数据量,并利用智能工作负载管理增强并发处理能力。

AI/BI仪表板性能优化的十大最佳实践(第二部分)

Databricks
Databricks · 2026-02-04T22:40:00Z
CSV、Parquet 和 Arrow:存储格式解析

Hugging Face Datasets 提供了加载数据集的简便方法,支持 CSV、Parquet 和 Arrow 格式。CSV 适合小数据集但性能较差;Parquet 适合批处理,支持压缩和快速查询;Arrow 在内存中操作,速度快,适合快速训练。选择合适的格式可以提高数据处理效率。

CSV、Parquet 和 Arrow:存储格式解析

KDnuggets
KDnuggets · 2026-01-13T15:00:55Z
Parquet?什么是Parquet?

Parquet是一种高效的列式存储格式,适合分析查询。文章分析了其内部结构及优化方法,如行组大小、压缩和编码对性能的影响。优化后,查询速度显著提升,行组大小调整带来了28倍的性能提升。了解Parquet特性有助于提高数据处理效率。

Parquet?什么是Parquet?

DEV Community
DEV Community · 2025-05-26T07:02:38Z
安全扩展:Cloudflare在全球服务健康指标和软件发布方面的策略

Cloudflare的健康介导部署(HMD)通过数据驱动的方式自动化软件更新,利用Thanos系统监控服务性能,及时识别和回滚问题代码,显著提高查询处理效率,减少批处理时间,并探索基于Parquet的时间序列存储以优化可观察性基础设施。

安全扩展:Cloudflare在全球服务健康指标和软件发布方面的策略

The Cloudflare Blog
The Cloudflare Blog · 2025-05-05T14:00:00Z
使用Parquet文件处理大规模数据:优缺点

Parquet是一种开源列式存储格式,适用于Apache Spark和Hadoop等大数据处理框架。它通过列存储提供高压缩率和查询性能,支持模式演变,兼容多种大数据工具。尽管写入速度较慢,不适合实时流处理或小数据集,但非常适合大规模分析工作负载。

使用Parquet文件处理大规模数据:优缺点

DEV Community
DEV Community · 2025-04-23T01:48:18Z
将文件上传至S3

本文介绍了如何将Spark生成的Parquet文件上传至S3,步骤包括将数据写入本地磁盘、定位Parquet文件、构建S3路径,并使用boto3进行文件上传。

将文件上传至S3

DEV Community
DEV Community · 2025-03-26T15:11:45Z
使用DuckDB、Quarkus和Kotlin将Parquet文件转换为可查询的RESTful API

本文介绍如何结合Quarkus和Kotlin构建轻量级RESTful API,定期从S3加载Parquet文件,并通过HTTP提供数据,使用Jdbi简化请求处理,配置查询模板,实现高效API。

使用DuckDB、Quarkus和Kotlin将Parquet文件转换为可查询的RESTful API

DEV Community
DEV Community · 2025-02-23T16:02:53Z
Parquet的两个版本

DuckDB的文章指出,查询引擎对Parquet文件的处理限制了格式的演变,因其未完全支持最新规范。尽管Parquet版本2已确定,但生态系统内的工具未能全面实现,导致兼容性问题。新编码提高了数据压缩效率,但版本2的采用率仍低,兼容性问题尚未解决。

Parquet的两个版本

DEV Community
DEV Community · 2025-02-20T06:00:00Z
数据缩略语过载:ETL与ELT、数据湖与数据仓库、Parquet与CSV,以及更多

本文介绍了数据处理中的常见术语,包括ETL与ELT、数据湖与数据仓库、CSV与Parquet。ETL在加载前转换数据,而ELT在加载后转换。数据仓库适合结构化分析,数据湖用于存储原始数据。CSV格式简单易读但处理速度慢,Parquet则高效压缩,适合大数据处理。理解这些术语有助于做出更好的决策。

数据缩略语过载:ETL与ELT、数据湖与数据仓库、Parquet与CSV,以及更多

DEV Community
DEV Community · 2025-01-30T19:38:41Z
数据格式 - 如何及何时使用

本文介绍了四种数据格式:CSV、JSON、Avro和Parquet,分析了它们的优缺点及适用场景。CSV适合简单表格数据,JSON适合复杂结构,Avro确保数据一致性,适合高效序列化,Parquet则适合大数据分析,存储效率高。

数据格式 - 如何及何时使用

DEV Community
DEV Community · 2025-01-17T15:54:23Z
测试

该应用使用Streamlit构建,支持读取Excel和CSV文件,清理数据并生成Parquet文件。用户可选择文件夹,查看合并或单个文件的数据,并提供多种视图模式、搜索和过滤功能,便于数据分析。

测试

DEV Community
DEV Community · 2024-12-22T01:57:25Z
大模型问答——pandas 读取大文件爆内存问题

在使用pandas读取32GB大文件时,可能会出现内存溢出的问题。解决方法包括分块读取、优化分隔符、显式指定数据类型、使用更高效的数据格式(如Parquet)和工具(如Dask)。逐块处理和写入可以有效控制内存使用,避免一次性合并带来的风险。

大模型问答——pandas 读取大文件爆内存问题

Anjhon’s Blog
Anjhon’s Blog · 2024-11-25T16:00:00Z
克雷格·克尔斯蒂恩斯:pg_parquet:连接Postgres和Parquet的扩展

pg_parquet是一个开源的Postgres扩展,用于处理Parquet文件。它支持数据在Postgres和Parquet文件之间的导入导出,并可查看文件架构和元数据。Parquet是一种高效的列式文件格式,适合数据分析。pg_parquet通过扩展Postgres的COPY命令,简化了与Parquet的集成。

克雷格·克尔斯蒂恩斯:pg_parquet:连接Postgres和Parquet的扩展

Planet PostgreSQL
Planet PostgreSQL · 2024-10-17T14:30:00Z

Parquet.Net是一个用于读取和写入Apache Parquet文件的纯.NET库,支持.NET 4.5及以上版本和.NET Standard 1.4及以上版本。它可以在多个操作系统和设备上运行。Parquet.Net提供了低级API和高级API,支持动态模式和自动序列化C#类为Parquet文件。Parquet是一种高效的列式存储格式。Parquet.Net是世界上最快的Parquet库,提供列式存储、高效的数据读取和低级API使用等功能。

Parquet.Net: 将 Apache Parquet 移植到 .NET - 张善友

张善友
张善友 · 2024-09-19T23:26:00Z
通过 DuckDB 集成释放 Postgres 的分析潜力

Crunchy Data 开发了一种解决方案,将 DuckDB 与 Postgres 集成,以使用 Parquet 等开放标准在 S3 中存储的大型数据集上实现高性能分析。该解决方案作为一种托管服务提供,称为 Crunchy Bridge,提供了 Postgres 原生分析的优势,而无需关注底层细节。

通过 DuckDB 集成释放 Postgres 的分析潜力

The New Stack
The New Stack · 2024-07-24T17:00:12Z

本文介绍了STAC生态系统的两个新发展:STAC和Geoparquet以及STAC和Kerchunk。STAC和Geoparquet是一种将STAC数据批量传输的标准方式,可以通过Parquet数据集导出STAC集合。STAC和Kerchunk是一种将非云优化数据格式放在云上的Python库和规范。

我对STAC更新的期待

datasframe
datasframe · 2023-10-15T17:00:00Z

Arroyo v0.5是一个流处理引擎,现在可以将流式SQL查询的结果以Parquet和JSON格式写入对象存储(如S3)。一篇文章讨论了异步Rust与常规Rust的挑战,另一篇文章探讨了在将Turborepo从Go迁移到Rust时使用Zig的方法。

【Rust日报】2023-09-09 Arroyo v0.5,高效地将流式数据传输到 S3

Rust.cc
Rust.cc · 2023-09-09T11:04:26Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码