小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Colsubsidio通过Elastic Observability转变业务流程监控

Colsubsidio通过Elastic Observability统一了40多个关键业务流程的日志、指标和事件,实现实时监控,MTTR减少30%,关键事件减少95%。该平台提升了服务可用性和用户体验,支持超过一百万用户。

Colsubsidio通过Elastic Observability转变业务流程监控

Elastic Blog - Elasticsearch, Kibana, and ELK Stack
Elastic Blog - Elasticsearch, Kibana, and ELK Stack · 2026-02-26T00:00:00Z
从团队科学项目到企业服务:重新思考OpenTelemetry

Ari Zilka在KubeCon上观察到23家可观察性供应商,认为它们展示的内容相似。他指出,观察性应从反应式仪表板转向主动操作,MyDecisive.ai利用OpenTelemetry等技术自动化决策,以解决系统错误的MTTR问题。

从团队科学项目到企业服务:重新思考OpenTelemetry

The New Stack
The New Stack · 2025-12-30T20:30:20Z
DrP:Meta的大规模根本原因分析平台

DrP是Meta开发的根本原因分析平台,能够自动化大规模系统的事件调查,显著降低事件解决时间(MTTR)20-80%。它通过灵活的SDK和可扩展的后端,支持数千次自动分析,提高工程师效率和系统可靠性。

DrP:Meta的大规模根本原因分析平台

Engineering at Meta
Engineering at Meta · 2025-12-19T17:35:13Z
2.5亿美元的文件

Coinbase、MSCI和Zscaler等公司的工程团队利用Resolve AI的AI SRE工具,使平均修复时间(MTTR)提高了5倍,开发效率提升了75%。Molmo是一种新型视觉语言模型,基于PixMo数据集,解决了现有模型的依赖问题,增强了视觉理解和推理能力。

2.5亿美元的文件

ByteByteGo Newsletter
ByteByteGo Newsletter · 2025-12-10T16:30:49Z

在讨论高可用性之前,需要了解MTTF和MTTR等概念。可用性计算公式为:可用性 = MTTF / (MTTF + MTTR)。SLA规定了可用性标准,阿里云和腾讯云的SLA与AWS有所不同。高可用系统的SLA可用性需大于99.9%。

高可用和数据库冗余实践

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2025-10-30T05:01:06Z
你的恢复时间表是谎言:为何它们会崩溃

恢复时间目标(RTO)在合规报告和灾难恢复计划中普遍存在,但实际操作中难以实现。现代基础设施的复杂性使全面恢复变得困难,许多团队未能有效验证恢复能力。RTO失败主要源于对云基础设施快速恢复的错误假设和缺乏全面的恢复工作流程。提高恢复能力需重新定义RTO,持续测试恢复计划,并关注实际的平均恢复时间(MTTR)。

你的恢复时间表是谎言:为何它们会崩溃

The New Stack
The New Stack · 2025-06-04T17:00:05Z
可视化Amazon Aurora、Zendesk等:Grafana数据源的新功能

Grafana Labs致力于将Grafana打造成一个开放、可组合和可扩展的可观察性平台。Grafana 12的发布展示了其丰富的数据源生态系统,支持用户在一个平台上查询和可视化不同系统的数据,帮助识别根本原因并减少MTTR。目前已有150多个数据源可供Grafana Enterprise和Grafana Cloud用户访问。

可视化Amazon Aurora、Zendesk等:Grafana数据源的新功能

engineering on Grafana Labs
engineering on Grafana Labs · 2025-05-14T00:00:00Z
什么是自适应遥测,它如何降低MTTR、噪声和成本?

随着应用程序扩展,日志和指标数量激增,管理成本上升。Adaptive Telemetry通过分类和优先级优化,帮助用户降低成本,保留重要数据,避免数据过载,自动聚合低价值数据,提升系统可观察性。

什么是自适应遥测,它如何降低MTTR、噪声和成本?

engineering on Grafana Labs
engineering on Grafana Labs · 2025-01-14T00:00:00Z

了解和利用关键的可靠性指标是事故管理和站点可靠性工程(SRE)团队的必备技能。本文介绍了四个关键指标:平均修复时间(MTTR),平均故障间隔时间(MTBF),平均检测时间(MTTD)和平均故障时间(MTTF)。通过掌握这些指标的细微差别,事故管理和SRE团队可以做出明智决策,提高系统可靠性,减少停机时间。

系统可靠性指标:MTTR、MTBF、MTTD 和 MTTF 的比较指南

DEV Community
DEV Community · 2024-09-02T08:05:35Z

本文讨论了实施多区域策略的重要性,强调了理解为什么需要更高的可用性。文章提到了平均恢复时间(MTTR)和服务级别协议(SLA)这两个关键指标,并解释了SLA定义时的分离原则和MTTR的重要性。最后建议在实施多区域策略前明确业务需求,为每个产品或领域制定清晰的SLA,并设定实际可行的MTTR目标。

多区域基础设施之旅:理解可用性与业务需求

DEV Community
DEV Community · 2024-08-29T03:13:40Z
优先处理困难任务以提高MTTR

IT系统面临恶意攻击和数据泄露的威胁,需要将安全纳入软件开发生命周期,采用团队合作、平台选择与安全姿态相结合、技术和测试驱动开发等措施,关注安全策略的自动化和监控,以及持续交付和供应链的安全性。

优先处理困难任务以提高MTTR

The New Stack
The New Stack · 2024-08-23T14:26:13Z

Historically, resolving complex service performance issues required IT teams to have years of experience. However, during an incident or an outage, it may be hard for these teams to find...

BMC Helix Release Improves IT Efficiency and MTTR with New AI Assistant and Automations

BMC Software | Blogs
BMC Software | Blogs · 2024-08-07T12:59:29Z
BMC Helix ITOM 新版本引入 AI 和 OpenTelemetry 跟踪,增强可用性以减少平均修复时间 (MTTR)

BMC Helix ITOM 24.2发布了OpenTelemetry支持分布式跟踪、BMC HelixGPT驱动的日志洞察、新的服务蓝图和增强的关联性集成,还包括扩展的BMC Helix Discovery Technology Knowledge Updates(TKUs)和通过高级事件过滤改进的可用性。这些增强功能使得IT运维和SRE团队更容易进行云原生应用数据收集,并减少故障排除时间。OpenTelemetry跟踪通过跟踪请求流程和识别问题,实现高效的故障排查。AI驱动的日志洞察提供额外的洞察力并自动化事件管理。高级事件过滤功能有助于优先处理关键问题。新的服务蓝图和BMC Helix Discovery TKUs提高了对IT环境的可见性。

BMC Helix ITOM 新版本引入 AI 和 OpenTelemetry 跟踪,增强可用性以减少平均修复时间 (MTTR)

BMC Software | Blogs
BMC Software | Blogs · 2024-04-24T12:57:33Z
BMC Helix ITOM 新版本引入 AI 和 OpenTelemetry 跟踪,提升可用性以减少平均修复时间 (MTTR)

BMC Helix ITOM 24.2发布了OpenTelemetry支持分布式跟踪、BMC HelixGPT驱动的日志洞察、新的服务蓝图和增强的关联性集成,还包括扩展的BMC Helix Discovery Technology Knowledge Updates(TKUs)和通过高级事件过滤改进的可用性。这些增强功能使得IT运维和SRE团队更容易进行云原生应用数据收集,减少故障排除时间。OpenTelemetry跟踪通过跟踪请求流程和识别问题,实现高效的故障排查。AI驱动的日志洞察提供额外的洞察力并自动化事件管理。高级事件过滤功能有助于优先处理关键问题。新的服务蓝图和BMC Helix Discovery TKUs提高了对IT环境的可见性。

BMC Helix ITOM 新版本引入 AI 和 OpenTelemetry 跟踪,提升可用性以减少平均修复时间 (MTTR)

BMC Software | Blogs
BMC Software | Blogs · 2024-04-24T12:57:33Z
平均解决时间作为服务台指标

服务台是确保高效和有效的IT服务交付的重要ITSM功能。MTTR是评估IT服务管理和运营活动的重要度量标准之一。

平均解决时间作为服务台指标

BMC Software | Blogs
BMC Software | Blogs · 2024-04-05T00:00:41Z
如何设计高可用性系统?

高可用性(HA)是系统设计中的基石,指系统能够长时间无故障连续运行。常见的系统设计包括热-冷、热-温和热-热架构,它们在资源利用和数据一致性方面有不同的权衡。

如何设计高可用性系统?

ByteByteGo Newsletter
ByteByteGo Newsletter · 2024-02-08T16:30:32Z
这 4 个系统可靠性评估指标,可能比 MTTR 更靠谱!

根据Verica公开事件数据库(VOID)的研究发现,MTTR可能不适用于评估复杂软件系统的可靠性。他们建议使用其他指标如SLOs、客户反馈、社会技术事件数据、未遂事故和事后审查数据来衡量系统可靠性。研发团队应全面了解组织响应事件的实际方式,并通过定性分析寻找合适的替代指标。

这 4 个系统可靠性评估指标,可能比 MTTR 更靠谱!

LigaAI 团队博客
LigaAI 团队博客 · 2023-07-31T06:51:27Z
研发质量指标大 PK:MTTR vs MTBF,谁是靠谱王?

在研发质量管理中,提高代码/测试质量和故障响应能力很重要。讨论系统服务时间、可用性和不可用性的定义,并确定MTBF和MTTR的优先级。评估研发质量的三个维度是可靠性、可用性和可维护性。优化MTTR可以通过敏捷开发和自动化工具来实现。

研发质量指标大 PK:MTTR vs MTBF,谁是靠谱王?

LigaAI 团队博客
LigaAI 团队博客 · 2023-07-05T03:21:51Z

主要介绍华为云在HBase 2.x内核所做的一些MTTR优化实践。

浅析华为云基于HBase MTTR上的优化实践

华为云官方博客
华为云官方博客 · 2023-01-06T07:26:49Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码