小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
开放表格式与开放目录的融合:Catalog Commits现已全面上线

Catalog Commits是Delta表的新标准,旨在统一数据湖的管理与访问,解决多引擎和多表协调的挑战,增强数据治理,支持跨表事务,提升数据湖的性能与开放性。Databricks上的UC管理表已全面支持Catalog Commits。

开放表格式与开放目录的融合:Catalog Commits现已全面上线

Databricks
Databricks · 2026-05-12T15:00:00Z
Amazon Redshift 推出带有集成数据湖查询引擎的基于 AWS Graviton 的 RG 实例

Amazon Redshift 推出了基于 AWS Graviton 的 RG 实例,集成数据湖查询引擎,查询速度比 RA3 实例快 2.2 倍,支持在数据仓库和数据湖中运行 SQL 分析,简化操作并降低分析成本。新实例已在多个 AWS 区域上线,用户可通过 AWS 控制台启动或迁移集群。

Amazon Redshift 推出带有集成数据湖查询引擎的基于 AWS Graviton 的 RG 实例

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-05-12T03:33:27Z
ASF项目聚焦:Apache Iceberg

Dipankar Mazumdar是Cloudera开发者关系总监,专注于湖屋架构和人工智能。他介绍了Apache Iceberg,这是一种高性能的开放表格式,旨在提高数据湖的可靠性和简便性。Iceberg解决了传统数据湖的更新不可靠和元数据处理成本高等问题。该项目于2018年开源,促进了社区合作与采用。未来,Iceberg将支持更多AI驱动的工作负载,关注灵活的数据表示和索引改进。

ASF项目聚焦:Apache Iceberg

The Apache Software Foundation Blog
The Apache Software Foundation Blog · 2026-04-29T16:22:08Z
EP212:数据仓库与数据湖与数据网格

数据仓库、数据湖和数据网格是三种数据存储方式。数据仓库结构化存储,查询快速但添加新数据源困难;数据湖灵活性高但管理复杂;数据网格将数据所有权分散,适合大型组织但需确保数据质量。许多公司结合使用这三种方法以满足不同需求。

EP212:数据仓库与数据湖与数据网格

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-04-25T15:30:59Z
基于 Amazon Connect 数据湖与 Quick 构建联络中心智能分析平台

本文介绍了如何利用Amazon Connect的数据湖和Quick构建智能分析平台。通过零ETL方案,用户可以跨账号分享数据,使用Athena进行SQL查询,并通过Quick生成可视化报表和自然语言问答分析,从而降低数据分析门槛,提升组织的智能分析能力。

基于 Amazon Connect 数据湖与 Quick 构建联络中心智能分析平台

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-04-21T08:39:42Z
如何构建开源数据湖以实现批量摄取

云数据分析平台如Databricks、Snowflake和BigQuery简化了数据平台的创建。本文介绍如何在开源数据湖堆栈上设置批量摄取层,确保用户拥有所有组件。重点在于建立可靠的数据摄取流程,使用Apache Airflow调度任务,并结合RustFS、Apache Iceberg和Project Nessie等技术,以实现高效的数据摄取和后续分析,确保数据的可靠性和可扩展性。

如何构建开源数据湖以实现批量摄取

freeCodeCamp.org
freeCodeCamp.org · 2026-04-16T14:26:47Z

某跨境电商平台的数据团队面临批处理与实时处理数据不一致的问题。虽然Lambda架构理论上能解决此问题,但实际维护成本高且数据一致性难以保证。数据仓库、数据湖及Lambda/Kappa架构经历多次演变,最终发展为Lakehouse架构,结合了数据仓库的事务管理与数据湖的灵活性。Lakehouse通过Delta Lake和Apache Iceberg提供了更好的数据管理能力,解决了数据质量和一致性问题。

【系统架构设计】数据湖与数据仓库:分析架构的演进路线

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-13T00:00:00Z
主机数据迁移中选择ETL的五个错误理由

ELT是一种数据集成过程,将原始数据从源服务器传输到目标服务器上的数据系统,然后准备信息以供下游使用。相比之下,ETL过于复杂、劳动密集、成本高,不适合处理非结构化数据,也容易成为功能和计算瓶颈。ELT更加灵活,适合处理大量数据,特别是在云端和数据湖中进行分析,正在成为IT组织实现现代化和最大化现有投资价值的关键工具。

主机数据迁移中选择ETL的五个错误理由

BMC Software | Blogs
BMC Software | Blogs · 2026-03-30T13:51:33Z

本文介绍了数据工程中的四种主要架构:数据仓库、数据湖、湖屋和数据网格。数据仓库适合结构化数据,提供快速查询;数据湖支持多种数据类型,灵活存储原始数据;湖屋结合了数据仓库和数据湖的优点,提供高效管理;数据网格强调团队间的数据所有权和协作。选择合适的架构需根据组织需求和数据类型。

数据湖与数据仓库、湖屋与数据网格:有什么区别?

KDnuggets
KDnuggets · 2026-02-26T15:00:54Z

SwanLake 是基于 Rust 的 Arrow Flight SQL Server,结合 DuckDB 和 DuckLake,旨在提供可部署和可观测的数据服务。它通过五层架构实现高效的查询和会话管理,支持对象存储和元数据统一管理,提升系统的可观测性和性能。

SwanLake:一个基于 DuckDB + DuckLake 的 Arrow Flight SQL 数据湖服务

Rust.cc
Rust.cc · 2026-02-22T02:02:29Z

SwanLake是一个基于Rust的DuckDB服务,旨在简化集成和操作。它结合了DuckDB、DuckLake和Flight SQL,提供高效的查询接口和会话管理,适用于数据湖场景,并注重可观察性,内置状态页面和性能指标,适合生产环境。

SwanLake:基于DuckDB和DuckLake构建的Arrow Flight SQL数据湖服务

Wang Fenjin's Blog
Wang Fenjin's Blog · 2026-02-21T00:00:00Z
pg_lake正式支持Snowflake Postgres:这对开放标准意味着什么

pg_lake扩展在Snowflake Postgres中原生支持,使PostgreSQL可作为数据湖屋,支持Apache Iceberg表,简化数据操作并支持SQL查询。同时,Snowflake扩展了Horizon Catalog,增强数据治理和共享功能,支持跨云和区域的数据访问,从而提高分析和事务工作负载的处理效率。

pg_lake正式支持Snowflake Postgres:这对开放标准意味着什么

The New Stack
The New Stack · 2026-02-06T09:00:03Z
认识Gravitino,一个地理分布式的联邦元数据湖

Datastrato创始人杜俊平推出了Apache Gravitino,一个高性能的元数据湖,旨在统一多引擎AI工作负载的数据治理,解决数据分散和元数据孤岛问题,支持多云数据整合,确保数据安全一致。

认识Gravitino,一个地理分布式的联邦元数据湖

The New Stack
The New Stack · 2026-01-29T19:25:03Z
数据库、数据湖与加密

对象存储已成为主流,适合大规模非结构化数据存储。数据湖提供集中存储,数据湖屋结合了数据湖的灵活性与传统数据仓库的管理能力。pg_lake扩展使PostgreSQL能直接与数据湖交互,pg_tde则提供数据加密保护。

数据库、数据湖与加密

Percona Database Performance Blog
Percona Database Performance Blog · 2026-01-28T16:15:52Z
350PB,数百万事件,一个系统:深入了解Uber的跨区域数据湖与灾难恢复

Uber开发了HiveSync,一个分片批量复制系统,确保Hive与HDFS数据在多个区域间同步,处理每日数百万个Hive事件。HiveSync提高了数据一致性,支持灾难恢复,消除闲置硬件成本。该系统包括控制平面和数据平面,实时捕捉DDL和DML变化,确保高可用性和数据准确性。

350PB,数百万事件,一个系统:深入了解Uber的跨区域数据湖与灾难恢复

InfoQ
InfoQ · 2026-01-16T15:00:00Z
从智能工厂到车联网:S3 Tables 双模式写入实战指南

本文介绍了两种将IoT数据写入Amazon S3 Tables的方案:方案一是适合低频批量数据的Lambda + PyIceberg,灵活且成本可控;方案二是适合高频实时数据的IoT Core + Kinesis Firehose,自动扩展且零运维。两者均支持统一数据湖,以满足不同业务需求。

从智能工厂到车联网:S3 Tables 双模式写入实战指南

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-11-06T03:41:11Z
通过数据清洗、治理和实验使数据为人工智能做好准备

随着组织越来越多地采用人工智能,数据准备变得至关重要。许多AI项目因缺乏干净、受控和丰富上下文的数据而停滞不前,而非模型限制。数据访问和治理是成功AI项目的基础,数据湖和数据联邦能提高实验速度和可扩展性,推动AI的有效应用。

通过数据清洗、治理和实验使数据为人工智能做好准备

The New Stack
The New Stack · 2025-10-19T17:00:01Z
Hudi系列:Hudi核心概念之索引(Indexs)

Hudi是一个数据湖框架,支持多种索引机制以提高数据处理效率。其核心概念包括时间轴、文件布局和表类型,提供COW和MOR两种表类型,支持快速插入和查询。通过多态索引、布隆过滤器和记录索引等机制,优化数据的读取和写入性能,并允许创建二级索引以加速非主键列的查询。

Hudi系列:Hudi核心概念之索引(Indexs)

京东科技开发者
京东科技开发者 · 2025-10-17T03:43:33Z
从数据湖屋到数字智能:在Databricks上构建多代理AI生态系统

在现代企业中,统一的数据湖屋至关重要。Edmunds利用Databricks平台构建了多代理AI生态系统,旨在从数据丰富转向洞察驱动。该系统通过自动化和智能化提升汽车购物体验,优化内部运营,实现高效决策。

从数据湖屋到数字智能:在Databricks上构建多代理AI生态系统

Databricks
Databricks · 2025-10-17T01:45:00Z
数据湖与数据仓库:您的组织需要了解的事项

在AI驱动的数据环境中,选择合适的数据架构至关重要。数据湖存储原始数据,而数据仓库则优化商业智能。现代企业需灵活应对数据存储、访问和治理的变化,采用统一的数据平台,以实现可扩展性和性能的平衡。

数据湖与数据仓库:您的组织需要了解的事项

Databricks
Databricks · 2025-10-09T17:45:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码