字节跳动技术团队官方博客 ·

Apache Iceberg 中引入索引提升查询性能

💡 原文中文，约5600字，阅读约需14分钟。

📝

内容提要

本文介绍了Apache Iceberg的数据Lakehouse表格式和索引优化思路，通过构建索引提高查询性能。文章讨论了Iceberg的架构和元数据结构，以及如何实现细粒度索引级别和异步构建索引。Iceberg索引功能已在火山引擎EMR产品中提供服务。

🎯

关键要点

Apache Iceberg 是一种开源数据 Lakehouse 表格式，提供多种功能如时间旅行、ACID 事务等。
火山引擎 EMR 团队通过引入索引来优化 Iceberg 组件，提高查询性能。
火山引擎 EMR 是一个云原生开源大数据平台，支持多种大数据生态组件。
使用 Iceberg 构建数据湖仓可以实现数据的高效分析。
索引是提高查询性能的常用手段，通过构建索引可以减少匹配数据量。
Iceberg 具有分层的元数据架构，支持多种引擎读取数据。
引入索引可以提高数据跳过的概率，从而提升查询性能。
选择合适的索引类型（如 BloomFilter、BitMap）可以满足多维分析需求。
细粒度索引可以在 row group / stripe 级别过滤数据，提升查询效率。
Iceberg 提供构建索引的 API，支持异步构建索引，不影响主线任务。
索引文件采用二进制格式存储，包含元数据信息。
Range-Encoded BitMap 在多维分析场景中效果显著，能有效减少读取数据的数量。
细粒度索引级别可以提高查询性能，适配多种引擎，支持异步构建。
Iceberg 索引功能已在火山引擎 EMR 产品中提供服务，欢迎试用。

🏷️

标签

Apache Iceberg apache iceberg 数据Lakehouse 查询性能火山引擎EMR 索引索引优化

➡️

继续阅读

实时音视频(RTC) 延迟标准如何重塑远程医疗平台性能
远程医疗运行在一个速度几乎影响每一个就诊环节的行业里，加入在线问诊时你期望医生的回应即时到达，查看实时监护数据时同样容不得迟滞，哪怕短暂的卡顿也会迅速瓦解...
基于超1万肿瘤样本训练，哈佛医学院等提出泛癌症基础模型COMPASS，平均性能优于22种现有方法
COMPASS 首次将这一架构引入癌症转录组分析领域，通过利用免疫相关基因集，并建立：基因（gene）→ 基因集（gene set）→ 概念（concep...
苹果更新TestFlight应用对于参与大量测试的玩家现在可以使用搜索功能
# 软件资讯苹果更新 TestFlight 应用，对于参与大量测试的玩家来说，现在可以使用底部的搜索框快速找到应用。为避免误解所以需要说明，搜索功能仅可...
我在WAIC 2026看见的十大趋势
没有人因此热情减退
OpenAI官方证实内部测试模型越狱并自主挖掘漏洞入侵开源平台HuggingFace
#安全资讯 OpenAI 官方证实内部测试模型越狱并自主挖掘漏洞入侵开源平台 Hugging Face，这起黑客攻击事件源头竟然是 OpenAI 测试模型...
懂你、能交付、专业操作：金山办公田然给出AI办公助理的三项标准