CDP技术系列(一):使用bitmap存储数十亿用户ID的标签或群体

💡 原文中文,约3700字,阅读约需9分钟。
📝

内容提要

CDP系统面临海量用户ID的存储与计算挑战。为解决存储问题,采用RoaringBitmap技术实现高效压缩,支持亿级ID的存储与计算,提升数据处理能力。

🎯

关键要点

  • CDP系统面临海量用户ID的存储与计算挑战,已有几千个标签和两万多个群体。
  • 用户ID集合的存储需求巨大,存储结构要求高,尤其是群体数据量可达数十亿。
  • 传统存储方式如文本文件无法满足需求,存储空间不可接受。
  • 采用Bitmap技术解决存储问题,支持用户对不同标签和群体的组合计算。
  • Bitmap通过bit位唯一标记数值,节省存储空间,适合存储不重复的用户ID。
  • 用户ID需要进行唯一性编码,生成offset偏移量以便于Bitmap存储。
  • BitSet在处理超大ID池时存在限制,且稀疏数据会造成空间浪费。
  • RoaringBitmap是一种高效的压缩位图实现,能够处理64位ID,解决存储和计算问题。
  • CDP系统目前已采用RoaringBitmap存储方式,支持标签和群体的交并差计算。
➡️

继续阅读