DataLeap数据资产实战:如何实现存储优化?
💡
原文中文,约9400字,阅读约需23分钟。
📝
内容提要
本文介绍了使用MySQL作为JanusGraph存储后端的设计思考和实际问题解决过程,以及Data Catalog产品的特点和优势。MySQL被选为存储后端,因为其运维成本较低,且可以支持Key-Value或者Key-Column-Value的存储模型。文章还介绍了并行写入死锁和性能测试的情况,并提出MySQL作为JanusGraph存储的优势和适用范围。
🎯
关键要点
-
DataLeap 是一站式数据中台套件,提升数据研发治理效率。
-
Data Catalog 是元数据管理服务,支持元数据编目、查找等功能。
-
MySQL 被选为 JanusGraph 存储后端,因其运维成本低且支持多种存储模型。
-
在评估存储方案时,排除了 HBase、Cassandra 和 Redis,最终选择 MySQL。
-
MySQL 支持 Key-Value 和 Key-Column-Value 存储模型,适合大规模数据处理。
-
设计中维护 Meta 表用于租户与数据源的映射关系,支持多租户隔离。
-
存储模型采用 KCV 模型,表结构包含四列以支持高效查询。
-
事务管理通过 AbstractStoreTransaction 接口实现,支持并发安全。
-
使用 Druid 作为数据库连接池,因其监控功能强大。
-
解决了连接超时和并行写入死锁等问题,确保系统稳定性。
-
性能测试表明 MySQL 能满足中小规模 Data Catalog 服务的存储需求。
-
未来可考虑引入成熟的 MySQL 分库分表方案以满足更大规模需求。
🏷️
标签
➡️