本文介绍了实现系统业务高可用性的概念和思考,包括高可用架构设计、常见架构模式、高可用开发运维、大促高可用保障、业务高可用、COE复盘等方面的内容。文章强调了稳定性建设的目标和考虑因素,介绍了常见架构模式和高可用开发运维的重要性,以及发布流程和变更管理对系统稳定性的重要性。
稳定性建设需要具体的建设活动,涉及人员、机制和文化。建立团队流程机制来保障稳定性,通过流程和规范减少人为因素导致的故障。SRE是一种对系统稳定性的解决方案,需要转变态度和方式。稳定性工作重在预防,70%的故障可以通过预防工作消除。稳定性建设需要团队参与、完善监控告警、检查隐患。系统在大促时需要处理高并发流量和多样化业务场景。SRE需要快速解决问题和推动解决风险。
业务系统核心目标是挣钱,系统稳定性建设核心是防止丢钱。稳定性治理的框架包括可灰度、AB、链路和沙箱灰度。监控是重要的,包括机器、链路、网络和业务监控。可回滚是兜底,需要评估应用、数据库DDL和数据回滚的可行性。
本文讨论了分布式微服务中的稳定性建设,介绍了强弱依靠管理的概念和分类,以及管理方针和工具扫描的方法。强依靠是指服务之间的依赖关系,而弱依靠是可选的依赖关系。文章还强调了降级机制和持续改善的重要性,强弱依靠管理能够提高系统的稳定性和性能。
本文介绍了稳定性摸排的另一个重要手段——日志监控,并分享了一套从整体到细节、从感知到诊断的系统统一监控方法论。同时,作者整理了一张稳定性摸排全链路的Action路由图,包括数据一致性方案、幂等方案、防资损方案和慢SQL改造方案等通用方案。最后,作者强调了稳定性建设的重要性,并分享了一些方法论。
本文介绍了云产品SAE业务侧稳定性实际建设过程中的经验和思考,重点介绍了SAE稳定性建设的思路和体系,以及根因定界和运行时可用性探针等技术,建立了统一告警中心和事件中心。SAE还将探索将运行时可用性探针与ebpf技术相结合,提供更为深入的调试排查手段。
完成下面两步后,将自动完成登录并继续当前操作。