在数字时代,网站可靠性工程(SRE)通过结合IT运维与软件工程,主动维护系统的可靠性。SRE利用自动化、监控和与开发团队的协作,提高服务可用性,减少故障影响,推动持续改进。
Google与Uplimit合作提供免费的Google网站可靠性工程课程,旨在为工程师准备SRE职位。课程由Google资深网站可靠性工程师教授,3月11日开始,名额有限。
谷歌二十年的网站可靠性工程经验教训:缓解事故程度与严重程度成正比,紧急情况前全面测试恢复机制,金丝雀变更,大红色按钮,集成测试,通信和备份渠道,降级性能模式,测试抗灾能力,自动化缓解措施,缩短发布间隔,降低发布出错可能性,单一全局硬件版本是单点故障。
完成下面两步后,将自动完成登录并继续当前操作。