bucket表:数仓存算分离中CU与DN解绑的关键

💡 原文中文,约3300字,阅读约需8分钟。
📝

内容提要

CUID和FILEID的全局统一管理,使得CU数据和DN节点解绑,CUDesc表的功能是指出CU数据存储的位置,解决了数据共享和扩缩容时的困难,每个DN只需要懂全局的规则,就可以从OBS上拿到CU数据。

🎯

关键要点

  • CUID和FILEID的全局统一管理使CU数据和DN节点解绑。
  • Bucket存储在数据共享中起到重要作用,支持存算分离。
  • 存算分离允许计算层和存储层独立扩展,提升性能。
  • CUDesc表作为CU数据的指路牌,指明数据存储位置。
  • 数据共享时,DN节点间需要共享CU数据,存在带宽和计算资源的挑战。
  • 扩缩容时,CU数据的迁移复杂,需创建新的系统表和CUDesc表。
  • Bucket表通过全局管理CUID和FILEID,简化了数据共享和扩缩容过程。
  • DN节点通过全局CUID和FILEID可以方便地访问OBS上的CU数据。
➡️

继续阅读