CDP技术系列(一):使用bitmap存储数十亿用户ID的标签或群体
💡
原文中文,约3700字,阅读约需9分钟。
📝
内容提要
CDP系统面临海量用户ID的存储与计算挑战。为解决存储问题,采用RoaringBitmap技术实现高效压缩,支持亿级ID的存储与计算,提升数据处理能力。
🎯
关键要点
- CDP系统面临海量用户ID的存储与计算挑战,已有几千个标签和两万多个群体。
- 用户ID集合的存储需求巨大,存储结构要求高,尤其是群体数据量可达数十亿。
- 传统存储方式如文本文件无法满足需求,存储空间不可接受。
- 采用Bitmap技术解决存储问题,支持用户对不同标签和群体的组合计算。
- Bitmap通过bit位唯一标记数值,节省存储空间,适合存储不重复的用户ID。
- 用户ID需要进行唯一性编码,生成offset偏移量以便于Bitmap存储。
- BitSet在处理超大ID池时存在限制,且稀疏数据会造成空间浪费。
- RoaringBitmap是一种高效的压缩位图实现,能够处理64位ID,解决存储和计算问题。
- CDP系统目前已采用RoaringBitmap存储方式,支持标签和群体的交并差计算。
🏷️
标签
➡️