小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
ASF项目聚焦:Apache Iceberg

Dipankar Mazumdar是Cloudera开发者关系总监,专注于湖屋架构和人工智能。他介绍了Apache Iceberg,这是一种高性能的开放表格式,旨在提高数据湖的可靠性和简便性。Iceberg解决了传统数据湖的更新不可靠和元数据处理成本高等问题。该项目于2018年开源,促进了社区合作与采用。未来,Iceberg将支持更多AI驱动的工作负载,关注灵活的数据表示和索引改进。

ASF项目聚焦:Apache Iceberg

The Apache Software Foundation Blog
The Apache Software Foundation Blog · 2026-04-29T16:22:08Z
如何构建开源数据湖以实现批量摄取

云数据分析平台如Databricks、Snowflake和BigQuery简化了数据平台的创建。本文介绍如何在开源数据湖堆栈上设置批量摄取层,确保用户拥有所有组件。重点在于建立可靠的数据摄取流程,使用Apache Airflow调度任务,并结合RustFS、Apache Iceberg和Project Nessie等技术,以实现高效的数据摄取和后续分析,确保数据的可靠性和可扩展性。

如何构建开源数据湖以实现批量摄取

freeCodeCamp.org
freeCodeCamp.org · 2026-04-16T14:26:47Z

某跨境电商平台的数据团队面临批处理与实时处理数据不一致的问题。虽然Lambda架构理论上能解决此问题,但实际维护成本高且数据一致性难以保证。数据仓库、数据湖及Lambda/Kappa架构经历多次演变,最终发展为Lakehouse架构,结合了数据仓库的事务管理与数据湖的灵活性。Lakehouse通过Delta Lake和Apache Iceberg提供了更好的数据管理能力,解决了数据质量和一致性问题。

【系统架构设计百科】数据湖与数据仓库:分析架构的演进路线

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-13T00:00:00Z
Apache软件基金会将两个开源项目从孵化器毕业

Apache Gluten和Apache Polaris已成为顶级项目,前者加速Apache Spark的SQL和DataFrame工作负载,后者为Apache Iceberg提供全面的目录服务。这标志着两个项目的成熟,ASF致力于支持开源社区的发展。

Apache软件基金会将两个开源项目从孵化器毕业

The Apache Software Foundation Blog
The Apache Software Foundation Blog · 2026-03-05T14:00:00Z
宣布Databricks Delta Sharing对Iceberg格式的一级支持

Delta Sharing是一个广泛采用的数据共享开放协议,支持Apache Iceberg格式。它允许数据提供者安全、实时地共享数据,打破平台壁垒,促进跨云协作。新功能简化了数据共享流程,增强了安全性和治理能力。

宣布Databricks Delta Sharing对Iceberg格式的一级支持

Databricks
Databricks · 2026-01-23T19:05:00Z
AWS CloudWatch演变为支持Apache Iceberg的统一可观察性平台

AWS对Amazon CloudWatch进行了重大增强,使其成为统一的可观察性平台,整合多账户环境中的操作、安全和合规日志。新功能支持Apache Iceberg兼容的日志查询,简化日志管理并降低成本。CloudWatch现支持多种第三方数据源,提供统一数据存储,用户可通过自然语言或流行查询语言进行查询。尽管面临竞争,其“零ETL”特性可能吸引AWS中心的组织。

AWS CloudWatch演变为支持Apache Iceberg的统一可观察性平台

InfoQ
InfoQ · 2026-01-12T10:24:00Z
Amazon S3 Tables在亚马逊云科技中国区域推出

亚马逊云科技推出Amazon S3 Tables,支持Apache Iceberg,优化大规模分析工作负载,提供高查询性能和事务处理能力,自动管理生命周期,支持行级事务、时间旅行和模式演进,兼容多种分析服务。

Amazon S3 Tables在亚马逊云科技中国区域推出

全球TMT-美通国际
全球TMT-美通国际 · 2026-01-08T02:47:55Z
互操作性的一年:企业如何通过Unity Catalog扩展治理

开放治理时代已来临,Unity Catalog(UC)作为互操作治理的基础,已被700多家企业采用。UC通过开放API简化外部工具连接,支持Delta Lake和Apache Iceberg,提供统一访问控制和高性能查询,证明了开放与治理结合能有效促进互操作性。

互操作性的一年:企业如何通过Unity Catalog扩展治理

Databricks
Databricks · 2025-11-26T17:00:00Z
在Databricks上通过Apache Iceberg v3 推进湖仓架构

Databricks在数据智能平台中支持Apache Iceberg v3,提供统一的数据层,提升性能和互操作性。新特性包括删除向量、行级血缘和变体数据类型,优化Iceberg工作负载。Unity Catalog实现Delta与Iceberg表的无缝互操作,促进开放标准,助力客户在湖仓基础上构建数据管理。

在Databricks上通过Apache Iceberg v3 推进湖仓架构

Databricks
Databricks · 2025-11-17T20:00:00Z
使用 Apache SeaTunnel 快速集成数据到S3 Tables

在数字化转型中,企业面临数据激增。Apache Iceberg作为开源数据湖格式,提供高效存储解决方案。亚马逊云科技的S3 Tables增强了Iceberg的托管能力,简化数据管理。通过SeaTunnel,企业可实现实时与批量数据集成,提升数据湖的灵活性和性能。

使用 Apache SeaTunnel 快速集成数据到S3 Tables

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-10-17T01:15:19Z
Floor Drees:第37周的贡献

本周活动包括Miles Richardson在伦敦的Apache Iceberg社区会议上介绍WarehousePG项目,以及PGDay UK和PGDay Lowlands等会议,讨论PostgreSQL的挑战和性能调优等主题。

Floor Drees:第37周的贡献

Planet PostgreSQL
Planet PostgreSQL · 2025-09-17T09:32:02Z
用Apache Iceberg消除开放源代码复杂性的误解

文章讨论了开放源代码在AI数据基础构建中的重要性,强调Apache Iceberg的高性能、安全性和灵活性。尽管企业对开放源代码存在误解,Iceberg简化了数据架构,帮助企业高效整合数据,提升业务价值,适应未来技术。

用Apache Iceberg消除开放源代码复杂性的误解

The New Stack
The New Stack · 2025-09-11T17:00:07Z
使用 Apache Iceberg 和 SparkSQL 构建可重现的机器学习系统:开源基础

Apache Iceberg 通过时间旅行、模式演变和 ACID 事务解决了机器学习系统中的数据管理问题,提升了数据一致性和可重现性,减少了调试时间,确保模型在生产环境中的可靠性。

使用 Apache Iceberg 和 SparkSQL 构建可重现的机器学习系统:开源基础

InfoQ
InfoQ · 2025-07-31T09:00:00Z
使用 Amazon S3,AWS Glue 和 BladePipe 五分钟实现数据实时入湖

Apache Iceberg 是一种开放的数据表格式,旨在解决数据湖管理中的元数据混乱问题。它与 AWS 服务结合,支持实时数据迁移,BladePipe 工具可实现 MySQL 到 Iceberg 的数据同步,延迟保持在 20 秒内,适合现代数据平台。

使用 Amazon S3,AWS Glue 和 BladePipe 五分钟实现数据实时入湖

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-07-29T05:40:55Z
Amazon S3新增排序和Z-order压缩以提升Apache Iceberg查询性能

AWS最近宣布,Amazon S3支持Apache Iceberg表的排序和Z-order压缩。这些功能通过用户定义的列顺序组织文件,优化多列查询性能,显著提高查询效率,特别是在处理高频更新的数据集时。

Amazon S3新增排序和Z-order压缩以提升Apache Iceberg查询性能

InfoQ
InfoQ · 2025-07-16T15:04:00Z
支持Iceberg格式的Supabase分析存储桶

Supabase推出分析存储桶,支持Apache Iceberg格式,集成于Supabase Studio。用户可通过SQL查询数据,未来将支持从Postgres直接写入,目前处于私有测试阶段。

支持Iceberg格式的Supabase分析存储桶

Blog - Supabase
Blog - Supabase · 2025-07-15T07:00:00Z
在Google Cloud上使用Apache Iceberg和Apache Spark构建现代数据湖屋

Apache Iceberg与Apache Spark结合,构建现代数据湖,提供事务一致性、模式演变和高性能。Iceberg解决传统数据湖的缺陷,支持ACID特性和智能分区管理,而Spark则优化查询性能,适合大数据分析。两者结合提升数据管理与分析效率。

在Google Cloud上使用Apache Iceberg和Apache Spark构建现代数据湖屋

KDnuggets
KDnuggets · 2025-07-08T17:00:12Z
新功能:借助 sort 和 z-order 压缩提升 Amazon S3 中 Apache Iceberg 的查询性能

Amazon S3 现支持 sort 和 z-order 压缩,优化 Apache Iceberg 查询性能。通过改善数据布局和减少小文件,提升高摄取量和频繁更新数据集的查询效率。新策略可自动应用,降低成本并加快查询速度。

新功能:借助 sort 和 z-order 压缩提升 Amazon S3 中 Apache Iceberg 的查询性能

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-06-26T02:52:56Z
Apache Iceberg 3.0 新特性:全新数据类型、NULL 值、变更捕获

Apache Iceberg 3.0版本发布,新增多种数据类型、快速删除、行追踪和NULL默认值等功能,提升了数据表格式的灵活性。该版本支持数据湖屋,优化了元数据管理,并增强了对流应用和低延迟的支持。

Apache Iceberg 3.0 新特性:全新数据类型、NULL 值、变更捕获

The New Stack
The New Stack · 2025-06-19T14:00:12Z
2025年数据与人工智能峰会:Databricks Unity Catalog的新功能

四年前,Databricks推出Unity Catalog以简化数据治理。现在,它已成为数据智能平台的核心,支持多种格式和云的统一治理。新功能包括全面支持Apache Iceberg、统一指标定义以及智能数据发现,提升用户的数据管理和使用效率。

2025年数据与人工智能峰会:Databricks Unity Catalog的新功能

Databricks
Databricks · 2025-06-12T23:57:48Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码