2021年10月,Facebook因BGP配置错误宕机超过6小时,损失超1亿美元。2023年阿里云和2024年CrowdStrike也发生类似故障。文章探讨容灾架构的核心概念,包括恢复点目标(RPO)、恢复时间目标(RTO)和恢复成本目标(RCO),分析不同容灾等级的特点与适用场景,如冷备、温备、热备、同城双活和异地多活。强调选择容灾方案需平衡业务价值与技术成本,定期演练是确保方案有效性的关键。
本文介绍了基于K8s容器集群的容灾架构与方案,包括RTO和RPO的容灾方针,备份与康复、主备和双活的容灾战略,以及多可用区和多地域的容灾规模选择。容灾可通过ACK One备份中心实现备份与康复,通过主备和双活模式实现数据库切换和事务流量切换。多可用区容灾和多地域容灾可通过规划容灾战略实现。单地域多可用区和单地域云IDC容灾计划可实现容灾,多地域容灾可通过大局流量办理和多地域单元化多活布置实现。
本文介绍了美团的容灾架构和演练体系建设,包括多环境、高频次、大规模、长链路的演练体系,其中隔离环境演练和生产环境演练是常态化的。未来,美团将补齐短板、迭代技术架构两个方向上进行持续的提升。
完成下面两步后,将自动完成登录并继续当前操作。