质量视角下的系统稳定性保障--稳定性保障常态化自动化实践

💡 原文中文,约2000字,阅读约需5分钟。
📝

内容提要

京东物流针对生产系统的稳定性进行治理,通过自动化识别和处理风险来提升效率。组建研发、测试和架构师团队,专注于核心服务、服务器资源、性能和日志风险,持续监控和优化,减少人工工作量,确保系统稳定性。

🎯

关键要点

  • 京东物流通过自动化识别和处理风险提升生产系统的稳定性。

  • 组建研发、测试和架构师团队,专注于核心服务和多维度风险治理。

  • 核心服务风险关注服务响应时间、可用率和调用量等指标。

  • 服务器资源风险关注CPU、内存、磁盘和网络等指标。

  • 性能防劣化通过分析服务和资源的性能指标识别系统劣化。

  • 日志风险治理包括异常日志治理和日志规范性等方面。

  • 常态化治理面临应用多、耗时长等痛点,需提升review效率。

  • 自动化巡检降低重复性人力工作,提升问题优化效率。

  • 定义问题、自动识别和闭环问题是自动化治理的关键步骤。

  • 通过案例展示如何定义问题、自动识别和跟进问题。

  • 稳定性治理重在持续,技术人员需不断提升技术以应对挑战。

➡️

继续阅读