💡
原文中文,约9500字,阅读约需23分钟。
📝
内容提要
亚马逊云科技提供全球高可用基础设施和构建韧性系统的最佳实践,通过分区、区域和可用区隔离机制确保服务稳定性和可用性。备份与恢复、守夜灯、温备/热备和多区域多活是灾难恢复策略。混沌工程可测试系统韧性。
🎯
关键要点
- 现代业务系统面临韧性挑战,客户要求7×24小时不间断运行。
- 亚马逊云科技提供全球高可用基础设施和韧性系统最佳实践。
- 可靠性是工作负载按预期执行功能的能力,韧性是从中断中恢复的能力。
- 分区、区域和可用区隔离机制确保服务稳定性和可用性。
- 亚马逊云科技的服务分为控制平面和数据平面,二者独立设计以提高性能和可用性。
- 亚马逊云科技提供全局、区域级和可用区级三种服务类型。
- 单元架构将服务切分为多个独立的单元,减少故障影响范围。
- 随机分片为每个客户提供单租户体验,增强服务韧性。
- 服务责任模型激励团队改进运营,确保服务的持续韧性。
- 运营准备情况审核确保新服务符合韧性标准。
- 灾难恢复策略包括备份与恢复、守夜灯、温备/热备和多区域多活。
- 混沌工程用于测试系统韧性,通过注入故障提高系统的抗压能力。
- 亚马逊云科技通过技术手段和运营模型保证云平台的韧性。
- 客户可以依托亚马逊云科技构建高可用系统和灾难恢复系统。
➡️