Hudi系列:Hudi核心概念之索引(Indexs)

💡 原文中文,约3400字,阅读约需8分钟。
📝

内容提要

Hudi系列介绍了核心概念,包括时间轴、文件布局、索引类型和表类型。Hudi支持布隆过滤器和记录索引等多种索引机制,以提高写入和查询效率。表类型分为COW和MOR,适用于不同场景。Hudi的全局和非全局索引确保数据一致性和快速访问。

🎯

关键要点

  • Hudi系列介绍了核心概念,包括时间轴、文件布局、索引类型和表类型。
  • Hudi支持多种索引机制,如布隆过滤器和记录索引,以提高写入和查询效率。
  • 表类型分为COW(写时复制)和MOR(读时复制),适用于不同场景。
  • Hudi的全局索引和非全局索引确保数据一致性和快速访问。
  • 时间轴概念包括Instant action操作类型和State状态类型。
  • Hudi的索引机制包括多态索引、布隆过滤器、记录索引、表达式索引和二级索引。
  • COW表允许快速插入/删除操作,而MOR表限制合并更改记录的数量。
  • Hudi支持多种索引类型,包括SIMPLE、RECORD_INDEX、BLOOM、GLOBAL_BLOOM等。
  • 全局索引要求键在全表范围内唯一,非全局索引仅在某一分区内唯一。
➡️

继续阅读