💡
原文英文,约500词,阅读约需2分钟。
📝
内容提要
2025年5月,GitHub发生三次服务性能下降事件,涉及附件上传失败、工作流延迟和Microsoft Teams集成中断。问题源于新功能、后端缓存配置错误和身份验证问题。团队已采取措施修复并防止类似事件再次发生。
🎯
关键要点
- 2025年5月,GitHub经历了三次服务性能下降事件。
- 5月1日,Issues服务出现问题,用户无法上传附件,原因是新功能导致CORS错误。
- 事件影响了约13万用户,持续约45分钟,团队通过回滚功能标志来缓解问题。
- 为防止类似事件再次发生,团队将增加监控指标以确保安全发布变更。
- 5月28日,GitHub Actions在公共仓库中出现工作流延迟,原因是后端缓存配置错误。
- 约19.7%的Ubuntu-24托管运行器作业受到影响,团队通过更新后端缓存解决了问题。
- 5月30日,Microsoft Teams GitHub集成服务发生完全服务中断,持续7小时50分钟。
- 中断是由于下游身份验证提供商的身份验证问题导致的,监控警报阈值不够敏感。
- 团队与提供商合作解决身份验证失败,并计划迁移到更耐用的身份验证方法。
➡️