💡
原文中文,约7000字,阅读约需17分钟。
📝
内容提要
美团数据库团队建设故障演练平台,验证防守组件三个核心能力,业务方也会积极配合。未来规划包括五个方面。
🎯
关键要点
-
混沌工程是一种在系统上进行实验的技术手段,旨在提升系统的容错能力和韧性。
-
美团数据库运维面临集群规模增长、故障种类增多等挑战,稳定性要求提高。
-
数据库团队在故障预防、发现、分析、恢复和复盘方面进行了大量工作。
-
人工故障演练存在场景覆盖率低、规模限制等问题,因此设计了数据库故障演练平台。
-
故障演练平台包括权限管理、演练评估、故障注入、指标观测等六个模块。
-
当前故障演练平台支持MySQL,涵盖多个数据库组件,形成闭环的故障演练流程。
-
故障注入能力主要集中在宕机类和主从延迟等场景,支持大规模并发故障注入。
-
演练流程分为演练前、演练中和演练后,形成风险评估和故障复盘的闭环。
-
爆炸半径控制通过物理隔离和流量控制来降低演练风险。
-
演练复盘分析演练结果,判断是否达到预期,并为后续演练提供指导。
-
随机无通知演练能力的建设旨在模拟真实故障发生的随机性。
-
演练运营体系关注演练核心指标、大规模演练指标和平台能力指标。
-
故障演练平台在美团内部推广,通过故障驱动、主动演练和DBA组织等方式进行。
-
演练规模分为单集群、中小规模和大规模演练,逐步验证故障影响和预案有效性。
-
演练的收益包括发现隐藏问题和验证防守组件表现,业务方积极配合。
-
未来规划将从混沌工程成熟度模型、成熟等级和具体路径等五个方面进行改进。
➡️