DataLeap数据资产实战:如何实现存储优化?

💡 原文中文,约9400字,阅读约需23分钟。
📝

内容提要

本文介绍了使用MySQL作为JanusGraph存储后端的设计思考和实际问题解决过程,以及Data Catalog产品的特点和优势。MySQL被选为存储后端,因为其运维成本较低,且可以支持Key-Value或者Key-Column-Value的存储模型。文章还介绍了并行写入死锁和性能测试的情况,并提出MySQL作为JanusGraph存储的优势和适用范围。

🎯

关键要点

  • DataLeap 是一站式数据中台套件,提升数据研发治理效率。

  • Data Catalog 是元数据管理服务,支持元数据编目、查找等功能。

  • MySQL 被选为 JanusGraph 存储后端,因其运维成本低且支持多种存储模型。

  • 在评估存储方案时,排除了 HBase、Cassandra 和 Redis,最终选择 MySQL。

  • MySQL 支持 Key-Value 和 Key-Column-Value 存储模型,适合大规模数据处理。

  • 设计中维护 Meta 表用于租户与数据源的映射关系,支持多租户隔离。

  • 存储模型采用 KCV 模型,表结构包含四列以支持高效查询。

  • 事务管理通过 AbstractStoreTransaction 接口实现,支持并发安全。

  • 使用 Druid 作为数据库连接池,因其监控功能强大。

  • 解决了连接超时和并行写入死锁等问题,确保系统稳定性。

  • 性能测试表明 MySQL 能满足中小规模 Data Catalog 服务的存储需求。

  • 未来可考虑引入成熟的 MySQL 分库分表方案以满足更大规模需求。

➡️

继续阅读