分享一次海量数据平滑迁移实战
💡
原文中文,约3500字,阅读约需9分钟。
📝
内容提要
本文讨论了采购系统中海量数据的治理和存储优化,以lifecycle表为例,提出了迁移方案,保证了读写稳定和准确,最终完成了整体平滑迁移。
🎯
关键要点
- 采购系统经历多年演进,数据量和复杂度显著增加,需治理海量数据。
- 当前存储使用MySQL 5.5集群,主库配置为32C/48G/6000G,无法扩容,剩余磁盘空间不足。
- 目标是降低磁盘容量,优化数据模型,提升系统稳定性。
- lifecycle表为最大表,占用1.3T空间,迁移至其他库以优化存储。
- 直接切换到JED存储中间件风险高,需结合系统现状谨慎决策。
- 迁移期间需保障读写稳定和准确,lifecycle数据对业务决策至关重要。
- 整体方案包括数据同步、双读、双写、离线验证和数据清理。
- 数据同步使用DRC实现,需注意同步速度和字段兼容问题。
- 双写控制风险,采用验证开关和上线开关进行数据验证。
- 双读期间需对新老库数据进行比对,发现数据不一致问题。
- 离线验证通过BDP任务对新老库数据进行比对,发现数据问题。
- 完成上线开关切换,确保整体平滑迁移,未出现数据丢失或错误。
- 老库和同步任务保留一周以防数据丢失,清理大表采用drop+create方式。
➡️