超大规模数据库集群保稳系列之二:数据库攻防演练建设实践

超大规模数据库集群保稳系列之二:数据库攻防演练建设实践

💡 原文中文,约7000字,阅读约需17分钟。
📝

内容提要

美团数据库团队建设故障演练平台,验证防守组件三个核心能力,业务方也会积极配合。未来规划包括五个方面。

🎯

关键要点

  • 混沌工程是一种在系统上进行实验的技术手段,旨在提升系统的容错能力和韧性。

  • 美团数据库运维面临集群规模增长、故障种类增多等挑战,稳定性要求提高。

  • 数据库团队在故障预防、发现、分析、恢复和复盘方面进行了大量工作。

  • 人工故障演练存在场景覆盖率低、规模限制等问题,因此设计了数据库故障演练平台。

  • 故障演练平台包括权限管理、演练评估、故障注入、指标观测等六个模块。

  • 当前故障演练平台支持MySQL,涵盖多个数据库组件,形成闭环的故障演练流程。

  • 故障注入能力主要集中在宕机类和主从延迟等场景,支持大规模并发故障注入。

  • 演练流程分为演练前、演练中和演练后,形成风险评估和故障复盘的闭环。

  • 爆炸半径控制通过物理隔离和流量控制来降低演练风险。

  • 演练复盘分析演练结果,判断是否达到预期,并为后续演练提供指导。

  • 随机无通知演练能力的建设旨在模拟真实故障发生的随机性。

  • 演练运营体系关注演练核心指标、大规模演练指标和平台能力指标。

  • 故障演练平台在美团内部推广,通过故障驱动、主动演练和DBA组织等方式进行。

  • 演练规模分为单集群、中小规模和大规模演练,逐步验证故障影响和预案有效性。

  • 演练的收益包括发现隐藏问题和验证防守组件表现,业务方积极配合。

  • 未来规划将从混沌工程成熟度模型、成熟等级和具体路径等五个方面进行改进。

➡️

继续阅读