💡
原文英文,约2200词,阅读约需8分钟。
📝
内容提要
2025年10月20日,Heroku因弗吉尼亚地区云基础设施提供商的数据库故障,导致服务中断。事件分为两个阶段:首先是数据库故障,影响应用监控和自动扩展;其次是网络故障,导致客户应用无法访问。服务于10月21日恢复,Heroku承诺改进系统以防止类似问题。
🎯
关键要点
- 2025年10月20日,Heroku因云基础设施提供商的数据库故障导致服务中断。
- 事件分为两个阶段:第一阶段是数据库故障,影响应用监控和自动扩展;第二阶段是网络故障,导致客户应用无法访问。
- 第一阶段(10月20日06:53 UTC - 09:30 UTC):数据库故障导致Postgres、KVS和Kafka服务延迟,影响应用指标和自动扩展功能。
- 第二阶段(10月20日11:27 UTC - 10月21日03:33 UTC):网络故障导致客户应用无法访问,出现H99平台错误和5xx状态码错误。
- Heroku承诺改进系统以防止类似问题,包括优化控制平面电路断路器和改善事件沟通流程。
- 长远计划包括增强数据服务和其他平台服务的控制平面弹性,减少对单一区域的依赖。
❓
延伸问答
Heroku服务中断的主要原因是什么?
Heroku服务中断的主要原因是弗吉尼亚地区云基础设施提供商的数据库故障。
这次服务中断分为几个阶段?
这次服务中断分为两个阶段:第一阶段是数据库故障,第二阶段是网络故障。
Heroku在服务中断后采取了哪些改进措施?
Heroku承诺改进系统,包括优化控制平面电路断路器和改善事件沟通流程。
服务中断对客户的具体影响有哪些?
客户可能无法访问应用,出现H99平台错误和5xx状态码错误,应用监控和自动扩展功能受到影响。
Heroku服务何时恢复正常?
Heroku服务于2025年10月21日恢复正常。
Heroku如何计划防止类似问题再次发生?
Heroku计划分散控制平面以增强弹性,减少对单一区域的依赖,并改善故障容忍能力。
➡️