质量视角下的系统稳定性保障--稳定性保障常态化自动化实践
💡
原文中文,约2000字,阅读约需5分钟。
📝
内容提要
京东物流针对系统复杂度增加,开展生产系统稳定性治理,自动识别和处理风险以提升效率。组建研发、测试和架构师团队,关注核心服务、服务器资源、性能和日志风险,确保服务稳定性。通过自动巡检和问题跟进,减少人力投入,提高问题解决效率。
🎯
关键要点
- 京东物流开展生产系统稳定性治理,自动识别和处理风险以提升效率。
- 组建研发、测试和架构师团队,关注核心服务、服务器资源、性能和日志风险。
- 通过自动巡检和问题跟进,减少人力投入,提高问题解决效率。
- 核心服务风险关注服务响应时间、可用率和调用量等指标。
- 服务器资源风险关注CPU、内存、磁盘和网络等指标。
- 性能防劣化分析服务和资源的性能指标,识别系统劣化。
- 日志风险治理包括异常日志治理、日志规范性和动态配置等。
- 常态化治理面临应用多、时间人力耗费大等痛点。
- 自动化解决方案包括线上问题巡检、风险项检测和全盘稳定性监控。
- 定义问题、自动识别和闭环问题是自动化过程的关键步骤。
- 通过案例展示如何定义问题、自动识别和跟进问题。
- 稳定性治理重在持续,技术人员需不断提升技术以应对挑战。
❓
延伸问答
京东物流如何提升生产系统的稳定性?
京东物流通过开展生产系统稳定性治理,自动识别和处理风险,组建研发、测试和架构师团队,关注核心服务和服务器资源等多维度风险,确保服务稳定性。
稳定性治理中关注的核心服务风险有哪些指标?
核心服务风险主要关注服务响应时间、可用率和调用量等指标,如TP99跳点、最大响应时间和秒级调用量等。
自动化解决方案在稳定性治理中起什么作用?
自动化解决方案通过线上问题巡检、风险项检测和全盘稳定性监控,减少人力投入,提高问题解决效率。
稳定性治理常态化面临哪些痛点?
常态化治理面临应用多、时间人力耗费大等痛点,增加review项时工作量大幅增加,落地难度增大。
如何进行问题的自动识别和跟进?
通过定义问题、自动巡检识别异常,并通过工单跟进提升闭环效率,定期巡检验证修复效果。
日志风险治理包括哪些方面?
日志风险治理包括异常日志治理、日志规范性、日志清理及动态配置等方面。
➡️