Hudi系列:Hudi核心概念之索引(Indexs)
💡
原文中文,约3400字,阅读约需8分钟。
📝
内容提要
Hudi系列介绍了核心概念,包括时间轴、文件布局、索引类型和表类型。Hudi支持布隆过滤器和记录索引等多种索引机制,以提高写入和查询效率。表类型分为COW和MOR,适用于不同场景。Hudi的全局和非全局索引确保数据一致性和快速访问。
🎯
关键要点
- Hudi系列介绍了核心概念,包括时间轴、文件布局、索引类型和表类型。
- Hudi支持多种索引机制,如布隆过滤器和记录索引,以提高写入和查询效率。
- 表类型分为COW(写时复制)和MOR(读时复制),适用于不同场景。
- Hudi的全局索引和非全局索引确保数据一致性和快速访问。
- 时间轴概念包括Instant action操作类型和State状态类型。
- Hudi的索引机制包括多态索引、布隆过滤器、记录索引、表达式索引和二级索引。
- COW表允许快速插入/删除操作,而MOR表限制合并更改记录的数量。
- Hudi支持多种索引类型,包括SIMPLE、RECORD_INDEX、BLOOM、GLOBAL_BLOOM等。
- 全局索引要求键在全表范围内唯一,非全局索引仅在某一分区内唯一。
➡️