bucket表:数仓存算分离中CU与DN解绑的关键
💡
原文中文,约3300字,阅读约需8分钟。
📝
内容提要
CUID和FILEID的全局统一管理,使得CU数据和DN节点解绑,CUDesc表的功能是指出CU数据存储的位置,解决了数据共享和扩缩容时的困难,每个DN只需要懂全局的规则,就可以从OBS上拿到CU数据。
🎯
关键要点
- CUID和FILEID的全局统一管理使CU数据和DN节点解绑。
- Bucket存储在数据共享中起到重要作用,支持存算分离。
- 存算分离允许计算层和存储层独立扩展,提升性能。
- CUDesc表作为CU数据的指路牌,指明数据存储位置。
- 数据共享时,DN节点间需要共享CU数据,存在带宽和计算资源的挑战。
- 扩缩容时,CU数据的迁移复杂,需创建新的系统表和CUDesc表。
- Bucket表通过全局管理CUID和FILEID,简化了数据共享和扩缩容过程。
- DN节点通过全局CUID和FILEID可以方便地访问OBS上的CU数据。
➡️