小红花·文摘

使用 Amazon S3 Tables 优化数据湖：从Hudi 迁移到托管 Iceberg

亚马逊AWS官方博客 ·

Hudi系列介绍了核心概念，包括时间轴、文件布局、索引类型和表类型。Hudi支持布隆过滤器和记录索引等多种索引机制，以提高写入和查询效率。表类型分为COW和MOR，适用于不同场景。Hudi的全局和非全局索引确保数据一致性和快速访问。

Hudi系列:表类型（Table & Query Types）

京东科技开发者 ·

Hudi系列:Hudi核心概念之文件布局(Storage Layouts)

京东科技开发者 ·

Apache Hudi 1.0 现已正式发布

InfoQ ·

数据湖屋结合了数据仓库和数据湖的优点。数据仓库提供高效存储，数据湖解决存储与计算分离。数据湖屋通过Hudi、Iceberg和Delta技术，实现事务处理和索引，提供灵活的现代数据管理。

随着智能数据时代的到来，数据量爆发式增长，数据形态呈海量化和多样化发展。华为云数仓GaussDB(DWS)湖仓融合技术可以实现对数据湖的无缝访问和融合查询，同时提供极致的查询性能。湖仓融合技术支持多种数据格式，如文本类型、列存存储格式、Parquet/ORC和Hudi。湖仓融合的功能包括变更数据、实时性、数据事务、并发性、多版本能力、存储优化和数据管理。湖仓融合还可以通过元数据打通实现统一的数据目录和表结构。

探索GaussDB(DWS)湖仓融合：Hudi与元数据打通的深度解析

华为云官方博客 ·

CDC 一键入湖：在 Amazon EMR Serverless 上运行 Apache Hudi DeltaStreamer

亚马逊AWS官方博客 ·

本文介绍了火山引擎LAS团队自研的多场景样本离线存储技术，用于处理机器学习系统的离线数据流。文章揭秘了流批一体样本生成的过程，并分享了对Hudi内核的优化和改造，以及在数据处理领域的实际应用和效果。同时，还有新人优惠购福利等着读者。

字节跳动基于 Hudi 的机器学习应用场景

字节跳动技术团队官方博客 ·

使用 Flink Hudi 处理变更数据流并通过 Redshift Spectrum 进行数据分析实践

亚马逊AWS官方博客 ·

使用 Apache Flink 在 Amazon EMR 上构建统一数据湖

亚马逊AWS官方博客 ·

AWS Glue for Apache Spark：原生支持 Apache Hudi、Delta Lake 和 Apache Iceberg（第 1 部分）

亚马逊AWS官方博客 ·

目前Hudi只支持FlinkSQL进行数据读写，但是在实际项目开发中一些客户存在使用Flink DataStream API读写Hudi的诉求。1.HoodiePipeline.java 将Hudi内核读写接口进行封装，提供Hudi DataStream API。1）HoodiePipeline.java ，该类将Hudi内核读写接口进行封装，提供Hudi DataStream...