应对GitHub近期的可用性问题

应对GitHub近期的可用性问题

💡 原文英文,约1500词,阅读约需6分钟。
📝

内容提要

GitHub近期因用户激增导致服务中断,2月9日数据库过载影响用户管理。公司正在加速将基础设施迁移至Azure,以提升可用性和扩展性,并承诺保持透明沟通,确保平台稳定。

🎯

关键要点

  • GitHub近期因用户激增导致服务中断,特别是在2月2日、2月9日和3月5日发生了重大事件。
  • 公司承认未达到自身可用性标准,影响了用户的工作流程和对平台的信心。
  • 2月9日事件中,核心数据库集群因过载导致身份验证和用户管理服务中断。
  • 导致过载的原因包括用户客户端应用程序的API调用激增和缓存刷新时间的错误设置。
  • GitHub Actions在2月2日和3月5日也经历了重大故障,主要是由于故障转移解决方案不足。
  • 公司正在加速将基础设施迁移至Azure,以提升可用性和扩展性。
  • 短期内,公司将优先进行稳定性工作,重新设计用户缓存系统以应对更高的流量。
  • 公司承诺保持透明沟通,定期发布服务中断的总结和可用性报告。
  • GitHub的首席技术官Vladimir Fedorov强调了加强平台稳定性和韧性的紧迫性。
➡️

继续阅读