OpenAI发布12月11日ChatGPT宕机报告:集群出现死循环把工程师挡在门外
💡
原文中文,约1300字,阅读约需4分钟。
📝
内容提要
OpenAI于12月11日因架构问题导致ChatGPT和Sora服务宕机4小时10分钟。新部署的遥测服务引发K8S API过载,工程师无法连接控制面进行回滚,最终通过缩小集群规模和扩大API服务器等措施恢复服务。这一事件提醒OpenAI需提升应对类似问题的能力。
🎯
关键要点
- OpenAI于12月11日因架构问题导致ChatGPT和Sora服务宕机4小时10分钟。
- 新部署的遥测服务引发K8S API过载,导致工程师无法连接控制面进行回滚。
- 宕机事件提醒OpenAI需提升应对类似问题的能力。
- 工程师在部署新服务后3分钟内发现问题,但无法快速解决。
- K8S数据面依赖于控制面,控制面宕机导致服务无法相互连接。
- 最终通过缩小集群规模、阻止K8S API访问和扩大API服务器等措施恢复服务。
- 工程师们将流量转移到健康集群中以降低负载,部分集群恢复时间较长。
- OpenAI应吸取教训,提升解决死循环问题的能力。
➡️