小红花·文摘

本文介绍了实现系统业务高可用性的概念和思考，包括高可用架构设计、常见架构模式、高可用开发运维、大促高可用保障、业务高可用、COE复盘等方面的内容。文章强调了稳定性建设的目标和考虑因素，介绍了常见架构模式和高可用开发运维的重要性，以及发布流程和变更管理对系统稳定性的重要性。

探讨打造「高可用架构」秘籍

京东科技开发者 ·

稳定性建设需要具体的建设活动，涉及人员、机制和文化。建立团队流程机制来保障稳定性，通过流程和规范减少人为因素导致的故障。SRE是一种对系统稳定性的解决方案，需要转变态度和方式。稳定性工作重在预防，70%的故障可以通过预防工作消除。稳定性建设需要团队参与、完善监控告警、检查隐患。系统在大促时需要处理高并发流量和多样化业务场景。SRE需要快速解决问题和推动解决风险。

【稳定性】浅谈团队如何做好系统稳定性

京东科技开发者 ·

业务系统核心目标是挣钱，系统稳定性建设核心是防止丢钱。稳定性治理的框架包括可灰度、AB、链路和沙箱灰度。监控是重要的，包括机器、链路、网络和业务监控。可回滚是兜底，需要评估应用、数据库DDL和数据回滚的可行性。

稳定性方法论：可灰度 & 可监控 & 可回滚

京东科技开发者 ·

本文讨论了分布式微服务中的稳定性建设，介绍了强弱依靠管理的概念和分类，以及管理方针和工具扫描的方法。强依靠是指服务之间的依赖关系，而弱依靠是可选的依赖关系。文章还强调了降级机制和持续改善的重要性，强弱依靠管理能够提高系统的稳定性和性能。

【稳定性】稳定性建设之依赖设计

六虎 ·

本文介绍了稳定性摸排的另一个重要手段——日志监控，并分享了一套从整体到细节、从感知到诊断的系统统一监控方法论。同时，作者整理了一张稳定性摸排全链路的Action路由图，包括数据一致性方案、幂等方案、防资损方案和慢SQL改造方案等通用方案。最后，作者强调了稳定性建设的重要性，并分享了一些方法论。

灵魂三问之稳定性摸排

阿里云云栖号 ·

本文介绍了云产品SAE业务侧稳定性实际建设过程中的经验和思考，重点介绍了SAE稳定性建设的思路和体系，以及根因定界和运行时可用性探针等技术，建立了统一告警中心和事件中心。SAE还将探索将运行时可用性探针与ebpf技术相结合，提供更为深入的调试排查手段。

基于 Kubernetes 的 Serverless PaaS 稳定性建设万字总结

阿里云云栖号 ·