The New Stack ·

Slack：本周服务中断的启示

💡 原文英文，约1500词，阅读约需6分钟。

📝

内容提要

周三，Slack经历了近九小时的大规模服务中断，故障可能与MySQL和Vitess数据库的分片问题有关。专家建议定期测试系统恢复能力，以防止类似事件重演。

🎯

🔎

Slack的服务中断影响了全球超过150个国家的用户，尤其是77家财富100强企业。这表明，企业在选择依赖的通讯工具时，需考虑其稳定性和可靠性，以避免对业务运营造成重大影响。

Slack的服务中断与其数据库分片问题密切相关。分片虽然可以提高性能，但管理多个数据库的复杂性也增加了故障风险。企业在设计系统架构时，应权衡分片带来的好处与潜在的管理挑战。

专家建议，Slack应定期测试其系统的恢复能力，以缩短恢复时间目标（RTO）。然而，许多公司因成本问题而忽视这一点。企业应认识到，定期测试不仅能提高系统韧性，还能降低未来故障带来的损失。

❓

Slack的服务中断可能与MySQL和Vitess数据库的分片问题有关，但具体原因尚未公开。

此次服务中断影响了全球超过150个国家的用户，包括77家财富100强企业。

Slack的工程师进行了数据库分片的修复工作，以解决功能降级问题，并恢复了所有受影响的功能。

专家建议Slack应定期测试其系统恢复能力，以缩短恢复时间目标（RTO），避免类似事件重演。

Slack选择迁移到Vitess是为了应对随着公司规模扩大而出现的性能和扩展性问题。

分片模型增加了管理多个数据库的复杂性，可能为服务中断埋下隐患，导致故障风险增加。

🏷️