GitHub 可用性报告:2024年2月

GitHub 可用性报告:2024年2月

💡 原文英文,约400词,阅读约需2分钟。
📝

内容提要

GitHub服务在2月份出现两次性能下降事件,分别是2月26日和2月29日。这些事件导致了后台作业服务的问题,造成GitHub服务处理延迟。事件原因包括作业排队服务容量限制和自动故障转移系统故障。通过手动切换到备用集群来缓解了这些事件,没有丢失数据。为了防止再次发生类似事件,进行了三项重大改进。长期来看,还在努力提高作业处理平台的可扩展性和可靠性。请关注状态页面获取实时更新和事后总结。

🎯

关键要点

  • 2月份,GitHub服务经历了两次性能下降事件,分别是2月26日和2月29日。

  • 2月26日事件持续了63分钟,2月29日事件持续了142分钟。

  • 2月26日的事件与作业排队服务的容量限制和自动故障转移系统故障有关,导致Webhooks、GitHub Actions和UI更新延迟。

  • 通过手动切换到备用集群缓解了2月26日的事件,过程中没有数据丢失。

  • 2月29日的事件同样导致Webhooks、GitHub Actions和GitHub Issues服务的处理延迟,95%的延迟发生在11:05到11:27 UTC之间。

  • 2月29日的事件中,自动故障转移在9:32 UTC成功路由流量,但在10:32 UTC不当恢复到主集群导致排队作业显著增加,直到11:21 UTC才进行修正。

  • 为了防止类似事件再次发生,已在自动化、故障转移过程的可靠性和背景作业排队服务的容量方面进行了三项重大改进。

  • 长期来看,正在进行更大规模的努力,以提高作业处理平台的可扩展性和可靠性。

  • 请关注状态页面获取实时更新和事后总结。

延伸问答

GitHub在2024年2月经历了哪些性能下降事件?

GitHub在2024年2月经历了两次性能下降事件,分别发生在2月26日和2月29日。

2月26日的事件持续了多长时间,造成了哪些影响?

2月26日的事件持续了63分钟,导致Webhooks、GitHub Actions和UI更新的延迟。

2月29日事件的主要问题是什么?

2月29日事件的主要问题是自动故障转移不当恢复到主集群,导致排队作业显著增加。

GitHub采取了哪些措施来防止类似事件再次发生?

GitHub进行了三项重大改进,包括提高自动化、增强故障转移过程的可靠性和扩展背景作业排队服务的容量。

在2月29日事件中,延迟主要发生在什么时间段?

在2月29日事件中,95%的延迟发生在11:05到11:27 UTC之间。

GitHub未来的计划是什么?

GitHub正在进行更大规模的努力,以提高作业处理平台的可扩展性和可靠性。

➡️

继续阅读