质量视角下的系统稳定性保障--稳定性保障常态化自动化实践
💡
原文中文,约2000字,阅读约需5分钟。
📝
内容提要
京东物流针对生产系统的稳定性进行治理,通过自动化识别和处理风险来提升效率。组建研发、测试和架构师团队,专注于核心服务、服务器资源、性能和日志风险,持续监控和优化,减少人工工作量,确保系统稳定性。
🎯
关键要点
-
京东物流通过自动化识别和处理风险提升生产系统的稳定性。
-
组建研发、测试和架构师团队,专注于核心服务和多维度风险治理。
-
核心服务风险关注服务响应时间、可用率和调用量等指标。
-
服务器资源风险关注CPU、内存、磁盘和网络等指标。
-
性能防劣化通过分析服务和资源的性能指标识别系统劣化。
-
日志风险治理包括异常日志治理和日志规范性等方面。
-
常态化治理面临应用多、耗时长等痛点,需提升review效率。
-
自动化巡检降低重复性人力工作,提升问题优化效率。
-
定义问题、自动识别和闭环问题是自动化治理的关键步骤。
-
通过案例展示如何定义问题、自动识别和跟进问题。
-
稳定性治理重在持续,技术人员需不断提升技术以应对挑战。
➡️