小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

某跨境电商平台的数据团队面临批处理与实时处理数据不一致的问题。虽然Lambda架构理论上能解决此问题,但实际维护成本高且数据一致性难以保证。数据仓库、数据湖及Lambda/Kappa架构经历多次演变,最终发展为Lakehouse架构,结合了数据仓库的事务管理与数据湖的灵活性。Lakehouse通过Delta Lake和Apache Iceberg提供了更好的数据管理能力,解决了数据质量和一致性问题。

【系统架构设计百科】数据湖与数据仓库:分析架构的演进路线

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-13T00:00:00Z
Delta Lake 解析:提升云存储中的数据可靠性

Delta Lake是Databricks开发的开源数据管理平台,旨在解决传统数据湖的质量和可靠性问题。它结合了数据湖的灵活性与数据仓库的可靠性,支持ACID事务、模式管理和版本控制,确保数据完整性。通过智能数据布局和统一的批流处理,Delta Lake显著提升查询性能,简化数据管道,适用于大规模数据分析。

Delta Lake 解析:提升云存储中的数据可靠性

Databricks
Databricks · 2026-02-03T18:50:00Z
互操作性的一年:企业如何通过Unity Catalog扩展治理

开放治理时代已来临,Unity Catalog(UC)作为互操作治理的基础,已被700多家企业采用。UC通过开放API简化外部工具连接,支持Delta Lake和Apache Iceberg,提供统一访问控制和高性能查询,证明了开放与治理结合能有效促进互操作性。

互操作性的一年:企业如何通过Unity Catalog扩展治理

Databricks
Databricks · 2025-11-26T17:00:00Z
从滞后到敏捷:重塑Freshworks的数据摄取架构

Freshworks通过重构数据架构,采用Apache Spark和Delta Lake,实现近实时数据处理,解决了旧系统的可扩展性、复杂性和成本问题,提升了数据处理效率和可靠性,支持业务快速增长。

从滞后到敏捷:重塑Freshworks的数据摄取架构

Databricks
Databricks · 2025-09-24T16:00:00Z
Apache Iceberg 架构师指南

Apache Iceberg 1.9.0于4月28日发布,新增行级操作、Delta Lake迁移支持和变体数据类型,提升性能,推动数据湖生态系统发展,用户可根据需求选择工具。

Apache Iceberg 架构师指南

The New Stack
The New Stack · 2025-05-21T18:00:21Z
解锁Databricks中Delta Lake UNIFORM的强大功能

Delta Lake UNIFORM是Databricks平台上的数据管理解决方案,优化数据湖和数据仓库的存储格式。它提供统一存储格式、模式演变、ACID事务支持和时间旅行功能,帮助数据工程师和科学家解决数据质量和性能问题,简化ETL流程,提升查询性能,适用于流数据分析和机器学习,满足合规要求。

解锁Databricks中Delta Lake UNIFORM的强大功能

DEV Community
DEV Community · 2025-03-23T02:48:57Z
Azure 数据湖存储

数据湖屋结合了数据湖和数据仓库的优点,支持高效的数据存储与分析。Delta Lake是湖屋架构的核心技术,具备ACID事务和数据版本控制。Unity Catalog为Azure Databricks提供数据治理解决方案,简化多云环境的安全管理。Delta Table是默认的数据表格式,支持流式和批处理。Delta Live Tables简化了ETL管道的创建与管理。

Azure 数据湖存储

DEV Community
DEV Community · 2025-03-22T10:14:50Z
在Jupyter Notebook中使用MinIO、Delta和Spark构建Data Vault

本文分享了使用现代大数据技术构建Data Vault架构的经验,结合了Apache Spark、Delta Lake、Minio和Docker。Data Vault是一种灵活的数据建模方法,适应业务需求变化。项目中通过Docker Compose简化环境配置,展示了如何使用Spark处理数据,创建Hubs、Links和Satellites,实现数据的历史记录和审计,强调了Data Vault的灵活性、可审计性及与Delta Lake的结合。

在Jupyter Notebook中使用MinIO、Delta和Spark构建Data Vault

DEV Community
DEV Community · 2025-03-01T23:40:33Z
Fabric与Databricks的互操作性(1):Hub存储在表共享中的作用

本文介绍了Microsoft Fabric与Databricks的互操作性,强调两者在数据管理上的相似性。通过Azure Databricks Unity Catalog镜像,Fabric可以引用Databricks的数据,但无法编辑。文章还探讨了利用Hub存储和Delta Lake机制实现数据共享与操作的方法。

Fabric与Databricks的互操作性(1):Hub存储在表共享中的作用

DEV Community
DEV Community · 2025-02-16T09:38:46Z
优化高容量、高速度数据的数据湖存储架构

在大数据时代,管理海量信息至关重要。数据湖作为集中存储库,面临数据量和速度的挑战。文章探讨了优化数据湖存储架构的技术,包括选择合适的文件格式(如Parquet、ORC、Avro)、有效的数据分区、索引策略和压缩算法。Delta Lake提供ACID事务和统一处理能力,提升数据湖的可靠性。持续监控和自动化工具对维护高效的数据湖也至关重要。

优化高容量、高速度数据的数据湖存储架构

DEV Community
DEV Community · 2025-02-09T12:48:17Z
数据湖中的 Delta Lake

Delta Lake 是一种存储层,支持 ACID 事务、版本管理和统一数据管理,适合大数据处理。通过 PySpark 使用 Delta Lake,可以创建、查询、更新和删除 Delta 表,并支持时间旅行功能,从而提高数据管道的可靠性和性能。

数据湖中的 Delta Lake

DEV Community
DEV Community · 2025-01-02T02:41:40Z

数据湖仓结合了数据湖和数据仓库的优点,支持独立存储和计算,减少数据移动。Apache Iceberg和Delta Lake是主要表格式,Iceberg在分析领域受欢迎,Delta Lake在AI/ML领域占优。Iceberg因广泛支持正成为行业标准。流处理和目录管理是关键,Apache Polaris和Nessie等开源目录提供治理方案。混合湖仓模式结合云和本地存储,Dremio等公司提供高性能解决方案。未来需关注流处理、目录和混合湖仓的发展。

数据湖仓综述 #1 - 湖仓新闻与洞察

DEV Community
DEV Community · 2024-10-16T16:18:54Z
宣布液体聚类正式发布

数据智能平台Databricks推出Delta Lake液体聚类正式版,取代了表分区和ZORDER,提供最佳查询性能。液体聚类简化了数据布局决策,允许随分析需求演变。已有数百个客户认可,提高读取性能2-12倍。突破性技术,提供更好的写入和读取性能。可在Delta Lake中使用。

宣布液体聚类正式发布

Databricks
Databricks · 2024-05-22T14:53:00Z

本文介绍了数据工程领域的大数据处理框架发展,包括Hive、Iceberg、Delta Lake和数据湖屋。Iceberg和Delta Lake是高级存储层,支持分区、模式演化、数据压缩、ACID事务等功能。数据湖屋结合了数据湖和执行SQL查询、运行批处理作业和设置数据治理方案等操作的能力。

简单介绍Iceberg与数据湖屋由来

极道
极道 · 2023-12-30T11:37:00Z
在 Delta Lake 上通过条码追溯管理召回

最近的数据显示,由产品缺陷引起的召回活动数量增加,每个案例平均造成数百万美元损失。本文讨论了建立中央的Delta Lake可以减少损失,提出了一个解决方案加速器。

在 Delta Lake 上通过条码追溯管理召回

Databricks
Databricks · 2023-12-05T13:35:47Z
Databend 本周动态 #118

Databend是一种现代化的云数据仓库,提供低成本和低复杂度的大规模分析需求。最新功能包括MERGE INTO支持分布式执行、LakeFS数据版本控制、新的JSON操作符和权限管理等。未来将支持读取Delta Lake。

Databend 本周动态 #118

Databend Blog
Databend Blog · 2023-11-05T00:00:00Z
宣布推出更新的Predictive I/O正式版:开箱即用的更快DML查询

Databricks推出了基于AI的Predictive I/O for updates,可加速数据操作,无需手动清除日志文件,提供更快的查询和读取性能。

宣布推出更新的Predictive I/O正式版:开箱即用的更快DML查询

Databricks
Databricks · 2023-11-02T14:51:55Z
2023年Data + AI峰会数据工程和流处理的新动态

2023年Data + AI Summit的一周公告总结,主题是“AI一代”,介绍了Databricks Lakehouse平台和其创新功能,包括Delta Lake、Spark和Databricks Lakehouse平台。重点回顾了数据工程和数据流处理方面的亮点和公告,以及最新的发展,如Delta Live Tables、Spark Structured Streaming和Project Lightspeed。还介绍了Databricks Workflows的功能和路线图,以及Databricks Lakehouse平台的客户动力和案例。

2023年Data + AI峰会数据工程和流处理的新动态

Databricks
Databricks · 2023-06-29T06:02:19Z
AWS Glue for Apache Spark:原生支持 Apache Hudi、Delta Lake 和 Apache Iceberg(第 1 部分)

AWS Glue是一种无服务器的、可扩展的数据集成服务,支持Apache Hudi、Linux Foundation Delta Lake和Apache Iceberg等开源数据湖存储框架。AWS Glue Studio笔记本提供了无服务器笔记本,可以以交互式方式快速探索和处理数据集。本文介绍了如何使用AWS Glue for Apache Spark处理Apache Hudi、Delta Lake、Apache Iceberg数据集,并描述了AWS Glue Studio笔记本的典型使用场景。

AWS Glue for Apache Spark:原生支持 Apache Hudi、Delta Lake 和 Apache Iceberg(第 1 部分)

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2023-06-07T02:51:26Z
无缝迁移您的Apache Parquet数据湖至Delta Lake

本文介绍了Apache Parquet和Delta Lake两种大数据存储格式,以及将Apache Parquet数据湖迁移到Delta Lake的方法。Delta Lake是一种完全符合ACID的数据存储格式,具有时间旅行、回滚、模式强制和模式演化等功能。

无缝迁移您的Apache Parquet数据湖至Delta Lake

Databricks
Databricks · 2023-06-06T09:50:25Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码