【系统架构设计百科】容灾架构:多活与灾备设计

💡 原文中文,约14100字,阅读约需34分钟。
📝

内容提要

2021年10月,Facebook因BGP配置错误宕机超过6小时,损失超1亿美元。2023年阿里云和2024年CrowdStrike也发生类似故障。文章探讨容灾架构的核心概念,包括恢复点目标(RPO)、恢复时间目标(RTO)和恢复成本目标(RCO),分析不同容灾等级的特点与适用场景,如冷备、温备、热备、同城双活和异地多活。强调选择容灾方案需平衡业务价值与技术成本,定期演练是确保方案有效性的关键。

🎯

关键要点

  • 2021年10月,Facebook因BGP配置错误宕机超过6小时,损失超1亿美元。
  • 2023年阿里云和2024年CrowdStrike也发生类似故障,影响数千家企业客户。
  • 容灾架构的核心目标是控制业务影响,确保在故障发生时业务能够继续运行。
  • 容灾方案的选择需平衡业务价值与技术成本,定期演练是确保方案有效性的关键。
  • 容灾等级分为冷备、温备、热备、同城双活和异地多活,各自的RPO、RTO和成本不同。
  • RPO(恢复点目标)和RTO(恢复时间目标)是评估容灾方案的重要指标,RCO(恢复成本目标)也需考虑。
  • 同城双活架构适用于金融行业,能够应对单机房级别的故障,但无法应对城市级灾难。
  • 两地三中心架构是金融行业推荐的容灾模式,能够在同城和异地之间进行切换。
  • 异地多活架构是容灾的终极形态,每个数据中心都在同时处理真实业务流量。
  • 蚂蚁金服的LDC架构是异地多活的标杆案例,支持高并发的支付需求。
  • 容灾架构的选择不是单纯的技术问题,而是业务风险管理的决策过程。

延伸问答

容灾架构的核心目标是什么?

容灾架构的核心目标是控制业务影响,确保在故障发生时业务能够继续运行。

RPO和RTO分别代表什么?

RPO(恢复点目标)表示能容忍丢失的数据时间窗口,RTO(恢复时间目标)表示从故障发生到业务恢复正常的最长时间。

同城双活架构适用于哪些场景?

同城双活架构适用于金融行业,能够应对单机房级别的故障,但无法应对城市级灾难。

异地多活架构的特点是什么?

异地多活架构是容灾的终极形态,每个数据中心都在同时处理真实业务流量,具有高可用性和复杂的架构。

选择容灾方案时需要考虑哪些因素?

选择容灾方案需平衡业务价值与技术成本,同时考虑定期演练以确保方案的有效性。

容灾等级有哪些,分别有什么特点?

容灾等级包括冷备、温备、热备、同城双活和异地多活,各自的RPO、RTO和成本不同,适用场景也各异。

➡️

继续阅读