小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
基于开放表格式的构建

开放表格式用于在分布式存储系统中管理大数据集,主要包括Apache Iceberg、Delta Lake和Apache Hudi。Iceberg支持ACID事务、模式演变和时间旅行,适合分析场景;Delta Lake强调与Spark的集成;Hudi优化流数据处理。Iceberg解决了传统数据湖的扩展性问题,满足现代数据平台需求。

基于开放表格式的构建

Blog - Supabase
Blog - Supabase · 2025-05-29T07:00:00Z
Apache Hudi 1.0 现已正式发布

Apache软件基金会发布了Apache Hudi 1.0,这是一个支持近实时分析的事务性数据湖平台。新版本引入了二级索引系统和部分更新功能,提升了查询性能和存储效率,并支持与Apache Spark集成,简化数据湖管理。

Apache Hudi 1.0 现已正式发布

InfoQ
InfoQ · 2025-01-18T06:14:00Z
存储2000亿实体:Notion的数据湖项目

Notion在2021年面临数据快速增长,构建了新的数据湖以应对挑战。通过使用Kafka和Apache Hudi,Notion实现了高效的数据处理和存储,显著降低了成本和延迟,支持AI功能的推出。

存储2000亿实体:Notion的数据湖项目

ByteByteGo Newsletter
ByteByteGo Newsletter · 2024-11-12T16:31:00Z
演讲:使用 Apache Hudi 进行增量数据处理

本文讨论了使用Apache Hudi进行增量数据处理的方法,以及它如何弥合批处理和流处理之间的差距。文章解释了数据架构的演变,数据仓库和数据湖之间的区别,以及Hudi的组件。文章还强调了增量处理的需求,并提供了Hudi如何实现规模化增量ETL的用例和示例。文章讨论了合并、索引、聚类和压缩等优化增量处理的功能。文章最后提到了Hudi社区和可用资源。

演讲:使用 Apache Hudi 进行增量数据处理

InfoQ
InfoQ · 2024-08-16T09:12:00Z
【Hadoop】Hudi 基础知识详解

Apache Hudi是一个针对分析型业务的数据存储抽象,提供表、事务、高效upserts/删除、高级索引、流式摄取服务、数据群集/压缩优化以及并发等功能。它支持快速Upsert以及可插拔的索引,原子方式操作,写入和插件操作之间的快照隔离,行和列的异步压缩,具有时间线来追踪元数据血统,通过聚类优化数据集等特性。

【Hadoop】Hudi 基础知识详解

小令童鞋
小令童鞋 · 2024-06-09T16:45:33Z
CDC 一键入湖:在 Amazon EMR Serverless 上运行 Apache Hudi DeltaStreamer

本文介绍了使用Apache Hudi的DeltaStreamer将CDC数据接入Hudi表,并在EMR Serverless上运行的方法。通过DeltaStreamer和EMR Serverless,用户无需编写CDC处理代码或维护Spark集群,只需一条命令即可实现CDC数据入湖。文章详细介绍了架构、环境准备、配置变量、创建目录和存储桶、创建EMR Serverless Execution Role、创建EMR Serverless Application、提交DeltaStreamer CDC作业、监控作业、错误检索、停止作业和结果验证等步骤。DeltaStreamer目前只能接入单张表,但随着Hudi的发展,多表接入工具将会越来越成熟。

CDC 一键入湖:在 Amazon EMR Serverless 上运行 Apache Hudi DeltaStreamer

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2023-08-03T06:35:27Z

本文介绍了火山引擎LAS团队自研的多场景样本离线存储技术,用于处理机器学习系统的离线数据流。文章揭秘了流批一体样本生成的过程,并分享了对Hudi内核的优化和改造,以及在数据处理领域的实际应用和效果。同时,还有新人优惠购福利等着读者。

字节跳动基于 Hudi 的机器学习应用场景

字节跳动技术团队官方博客
字节跳动技术团队官方博客 · 2023-07-20T04:06:55Z
AWS Glue for Apache Spark:原生支持 Apache Hudi、Delta Lake 和 Apache Iceberg(第 1 部分)

AWS Glue是一种无服务器的、可扩展的数据集成服务,支持Apache Hudi、Linux Foundation Delta Lake和Apache Iceberg等开源数据湖存储框架。AWS Glue Studio笔记本提供了无服务器笔记本,可以以交互式方式快速探索和处理数据集。本文介绍了如何使用AWS Glue for Apache Spark处理Apache Hudi、Delta Lake、Apache Iceberg数据集,并描述了AWS Glue Studio笔记本的典型使用场景。

AWS Glue for Apache Spark:原生支持 Apache Hudi、Delta Lake 和 Apache Iceberg(第 1 部分)

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2023-06-07T02:51:26Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码