小红花·文摘

Colsubsidio通过Elastic Observability转变业务流程监控

Elastic Blog - Elasticsearch, Kibana, and ELK Stack ·

从团队科学项目到企业服务：重新思考OpenTelemetry

The New Stack ·

DrP：Meta的大规模根本原因分析平台

Engineering at Meta ·

2.5亿美元的文件

ByteByteGo Newsletter ·

在讨论高可用性之前，需要了解MTTF和MTTR等概念。可用性计算公式为：可用性 = MTTF / (MTTF + MTTR)。SLA规定了可用性标准，阿里云和腾讯云的SLA与AWS有所不同。高可用系统的SLA可用性需大于99.9%。

高可用和数据库冗余实践

土法炼钢兴趣小组的博客 ·

你的恢复时间表是谎言：为何它们会崩溃

The New Stack ·

可视化Amazon Aurora、Zendesk等：Grafana数据源的新功能

engineering on Grafana Labs ·

什么是自适应遥测，它如何降低MTTR、噪声和成本？

engineering on Grafana Labs ·

了解和利用关键的可靠性指标是事故管理和站点可靠性工程（SRE）团队的必备技能。本文介绍了四个关键指标：平均修复时间（MTTR），平均故障间隔时间（MTBF），平均检测时间（MTTD）和平均故障时间（MTTF）。通过掌握这些指标的细微差别，事故管理和SRE团队可以做出明智决策，提高系统可靠性，减少停机时间。

系统可靠性指标：MTTR、MTBF、MTTD 和 MTTF 的比较指南

DEV Community ·

本文讨论了实施多区域策略的重要性，强调了理解为什么需要更高的可用性。文章提到了平均恢复时间（MTTR）和服务级别协议（SLA）这两个关键指标，并解释了SLA定义时的分离原则和MTTR的重要性。最后建议在实施多区域策略前明确业务需求，为每个产品或领域制定清晰的SLA，并设定实际可行的MTTR目标。

多区域基础设施之旅：理解可用性与业务需求

DEV Community ·

优先处理困难任务以提高MTTR

The New Stack ·

Historically, resolving complex service performance issues required IT teams to have years of experience. However, during an incident or an outage, it may be hard for these teams to find...