质量视角下的系统稳定性保障--稳定性保障常态化自动化实践

💡 原文中文,约2000字,阅读约需5分钟。
📝

内容提要

京东物流针对系统复杂度增加,开展生产系统稳定性治理,自动识别和处理风险以提升效率。组建研发、测试和架构师团队,关注核心服务、服务器资源、性能和日志风险,确保服务稳定性。通过自动巡检和问题跟进,减少人力投入,提高问题解决效率。

🎯

关键要点

  • 京东物流开展生产系统稳定性治理,自动识别和处理风险以提升效率。
  • 组建研发、测试和架构师团队,关注核心服务、服务器资源、性能和日志风险。
  • 通过自动巡检和问题跟进,减少人力投入,提高问题解决效率。
  • 核心服务风险关注服务响应时间、可用率和调用量等指标。
  • 服务器资源风险关注CPU、内存、磁盘和网络等指标。
  • 性能防劣化分析服务和资源的性能指标,识别系统劣化。
  • 日志风险治理包括异常日志治理、日志规范性和动态配置等。
  • 常态化治理面临应用多、时间人力耗费大等痛点。
  • 自动化解决方案包括线上问题巡检、风险项检测和全盘稳定性监控。
  • 定义问题、自动识别和闭环问题是自动化过程的关键步骤。
  • 通过案例展示如何定义问题、自动识别和跟进问题。
  • 稳定性治理重在持续,技术人员需不断提升技术以应对挑战。

延伸问答

京东物流如何提升生产系统的稳定性?

京东物流通过开展生产系统稳定性治理,自动识别和处理风险,组建研发、测试和架构师团队,关注核心服务和服务器资源等多维度风险,确保服务稳定性。

稳定性治理中关注的核心服务风险有哪些指标?

核心服务风险主要关注服务响应时间、可用率和调用量等指标,如TP99跳点、最大响应时间和秒级调用量等。

自动化解决方案在稳定性治理中起什么作用?

自动化解决方案通过线上问题巡检、风险项检测和全盘稳定性监控,减少人力投入,提高问题解决效率。

稳定性治理常态化面临哪些痛点?

常态化治理面临应用多、时间人力耗费大等痛点,增加review项时工作量大幅增加,落地难度增大。

如何进行问题的自动识别和跟进?

通过定义问题、自动巡检识别异常,并通过工单跟进提升闭环效率,定期巡检验证修复效果。

日志风险治理包括哪些方面?

日志风险治理包括异常日志治理、日志规范性、日志清理及动态配置等方面。

➡️

继续阅读