OpenAI发布12月11日ChatGPT宕机报告:集群出现死循环把工程师挡在门外

💡 原文中文,约1300字,阅读约需4分钟。
📝

内容提要

OpenAI于12月11日因架构问题导致ChatGPT和Sora服务宕机4小时10分钟。新部署的遥测服务引发K8S API过载,工程师无法连接控制面进行回滚,最终通过缩小集群规模和扩大API服务器等措施恢复服务。这一事件提醒OpenAI需提升应对类似问题的能力。

🎯

关键要点

  • OpenAI于12月11日因架构问题导致ChatGPT和Sora服务宕机4小时10分钟。
  • 新部署的遥测服务引发K8S API过载,导致工程师无法连接控制面进行回滚。
  • 宕机事件提醒OpenAI需提升应对类似问题的能力。
  • 工程师在部署新服务后3分钟内发现问题,但无法快速解决。
  • K8S数据面依赖于控制面,控制面宕机导致服务无法相互连接。
  • 最终通过缩小集群规模、阻止K8S API访问和扩大API服务器等措施恢复服务。
  • 工程师们将流量转移到健康集群中以降低负载,部分集群恢复时间较长。
  • OpenAI应吸取教训,提升解决死循环问题的能力。
➡️

继续阅读