【Hadoop】Hudi 基础知识详解
原文中文,约3000字,阅读约需7分钟。发表于: 。Apache Hudi将核心仓库和数据库功能直接带到数据湖中。Hudi提供了表、事务、高效upserts/删除、高级索引、流式摄取服务、数据群集/压缩优化以及并发,同时保持数据以开源文件格式保留。 Hudi是Hadoop Upserts and...
Apache Hudi是一个针对分析型业务的数据存储抽象,提供表、事务、高效upserts/删除、高级索引、流式摄取服务、数据群集/压缩优化以及并发等功能。它支持快速Upsert以及可插拔的索引,原子方式操作,写入和插件操作之间的快照隔离,行和列的异步压缩,具有时间线来追踪元数据血统,通过聚类优化数据集等特性。