InfoQ ·

PagerDuty的Kafka故障使数千家公司失去警报

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

2025年8月28日，PagerDuty因新功能的bug导致Kafka集群超负荷，影响美国客户的事件处理。公司承认级联故障难以预测，计划加强监控和变更管理，以防止类似事件重演。社区强调可靠事件管理系统的重要性。

🎯

🔎

PagerDuty的故障不仅影响了其自身服务，还引发了对整个事件管理系统可靠性的反思。此次事件显示，单一服务的故障可能导致级联效应，影响多个依赖系统。企业应重视系统间的相互依赖性，确保在设计时考虑到潜在的故障传播风险。

在故障发生期间，PagerDuty未能及时更新状态信息，导致客户困惑。这一“元故障”强调了在危机时刻，透明和及时的沟通对维护客户信任的重要性。企业在制定应急响应计划时，应确保有清晰的沟通渠道和策略，以减少客户的不安。

PagerDuty计划加强监控和变更管理，以防止类似事件重演。这表明，持续改进和学习是企业文化的重要组成部分。其他公司也应借鉴这一做法，定期评估和优化自身的监控系统，以提升整体服务的可靠性和响应能力。

❓

故障是由于新功能中的逻辑错误，导致每个API请求都实例化新的Kafka生产者，超出了系统的容量。

故障导致PagerDuty服务中断或延迟，持续超过九小时，95%的事件在高峰期被拒绝。

PagerDuty计划加强监控和变更管理，特别是在JVM和Kafka层面，以避免类似事件重演。

社区强调了可靠事件管理系统的重要性，并建议增加冗余和备份计划，以提高系统的韧性。

PagerDuty在故障期间外部沟通延迟，未能及时更新故障状态，导致客户困惑。

PagerDuty的文化强调持续学习，使其在事件后能够吸取教训，提升技术和团队能力。

🏷️