小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
通过ecdysis剥离旧代码:Cloudflare中Rust服务的优雅重启

ecdysis是Cloudflare开源的Rust库,支持无缝升级网络服务,避免连接中断。它通过父进程fork子进程,确保在升级过程中保持监听,提高服务可靠性,已在全球330多个数据中心运行,处理数十亿请求。

通过ecdysis剥离旧代码:Cloudflare中Rust服务的优雅重启

The Cloudflare Blog
The Cloudflare Blog · 2026-02-13T14:00:00Z
AI 可观测性:公共部门任务弹性的支柱

AI 可观测性是公共部门任务弹性的关键,能够提升服务的可靠性和公众信任。通过数据网格和 AI 驱动的监控,机构可以实时识别问题,确保合规性,优化资源,从而降低 IT 中断成本。

AI 可观测性:公共部门任务弹性的支柱

Elastic Blog
Elastic Blog · 2026-02-12T08:00:00Z
Workers如何驱动我们的内部维护调度管道

Cloudflare在全球330多个城市设有数据中心,维护操作复杂,手动协调几乎不可能。为确保服务可靠性,Cloudflare开发了集中式自动调度系统,利用Workers技术优化维护计划,避免客户服务中断。该系统通过图形处理和高效数据获取,实时分析和处理维护请求,提高了性能和可靠性。

Workers如何驱动我们的内部维护调度管道

The Cloudflare Blog
The Cloudflare Blog · 2025-12-22T14:00:00Z
亚马逊与谷歌的新云连接工具可能更容易应对服务中断

谷歌与亚马逊网络服务(AWS)合作推出云服务连接工具,企业可在几分钟内建立私有连接,提供安全保障,避免服务中断造成损失。该系统具备主动监测功能,能在故障发生前反应,提升服务可靠性。

亚马逊与谷歌的新云连接工具可能更容易应对服务中断

The Verge
The Verge · 2025-12-01T18:06:02Z
Weekly Issue-《芯片制造:光刻巨头 ASML 传奇之路》

作者在Autodesk的经历中,通过分析40多个事件,识别出服务可靠性问题的关键模式,帮助制定了下一年的OKR,并在年度绩效评审中给经理留下深刻印象。

Weekly Issue-《芯片制造:光刻巨头 ASML 传奇之路》

Yiran's Blog
Yiran's Blog · 2025-10-12T00:00:00Z
我在Autodesk的职业回顾

作为SRE,我在Autodesk的经历让我收获颇丰。尽管经历裁员,我仍实现了职业目标,提升了技术和沟通能力,并通过监控和预防措施提高了服务可靠性。现在,我将专注于照顾新生儿。

我在Autodesk的职业回顾

Henry Z's blog
Henry Z's blog · 2025-10-05T12:00:00Z
Uber完成了针对微服务和大规模计算工作负载的大规模Kubernetes迁移

Uber成功完成了从Apache Mesos到Kubernetes的大规模迁移,影响了数千个服务。工程团队分享了迁移中的挑战与解决方案,强调了服务可靠性和逐步过渡的重要性。迁移后,Uber在运营效率、开发者生产力和资源利用率上显著提升,为创新和灵活部署奠定了基础。

Uber完成了针对微服务和大规模计算工作负载的大规模Kubernetes迁移

InfoQ
InfoQ · 2025-05-24T09:00:00Z
团队基准评估的五步运营成熟度模型

客户期望服务的可靠性和前瞻性体验。运营成熟度模型帮助企业识别差距,制定战略,提升数字化能力,分为手动、反应、响应、主动和预防五个阶段。通过自动化和AI,企业可减少故障、提升创新、增强客户信任,实现可持续增长。

团队基准评估的五步运营成熟度模型

The New Stack
The New Stack · 2025-04-22T17:00:33Z
如何在事件发生时简化沟通

2024年,90%的组织每小时停机成本超过30万美元,41%甚至达到100万至500万美元。有效的事件管理不仅要解决问题,还需改善IT服务与客户服务团队的沟通。自动化工作流程和AI工具能提高沟通效率,缩短响应时间,维护客户信任。事件管理的后续评估也很重要,以优化流程和提升服务可靠性。

如何在事件发生时简化沟通

The New Stack
The New Stack · 2025-04-09T14:15:08Z
SLO指标:提升服务可靠性的实用指南

现代企业需提供可靠服务和优质客户体验,服务水平目标(SLO)为此提供量化框架。SLO、服务水平指标(SLI)和服务水平协议(SLA)共同构成服务可靠性管理体系。合理设定SLO并监控错误预算,有助于企业平衡创新与可靠性,提升服务质量。

SLO指标:提升服务可靠性的实用指南

DEV Community
DEV Community · 2025-03-14T15:45:53Z
如何使用Grafana Cloud合成监控执行Ping检查

合成监控是确保网络应用健康的重要实践。Ping检查通过发送ICMP请求验证网络连通性,Grafana Cloud提供定期运行Ping检查的功能,帮助开发者检测连接问题、延迟和停机,从而提升服务可靠性。设置过程包括创建账户、配置参数和选择监测代理。

如何使用Grafana Cloud合成监控执行Ping检查

engineering on Grafana Labs
engineering on Grafana Labs · 2025-02-27T00:00:00Z
追踪Node.js中的高内存使用

本文介绍了在Node.js中追踪和修复高内存使用的方法,包括理解代码、复制问题、捕获内存快照,最终定位内存泄漏并修复代码,从而显著降低内存使用,提高服务可靠性。

追踪Node.js中的高内存使用

DEV Community
DEV Community · 2024-12-14T19:28:57Z

欧洲云计算提供商Hetzner在未通知的情况下删除了非盈利组织Kiwix的所有服务器和数据。Kiwix幸好有备份,48小时内恢复了服务。这一事件引发了对Hetzner服务可靠性的质疑,并强调了数据备份的重要性。

[更新] 数据备份的重要性:欧洲云公司Hetzner无警告删除某客户的所有服务器和数据

蓝点网
蓝点网 · 2024-12-11T08:33:17Z
提升可观察性实践 — 第1部分

文章探讨了可观察性成熟度的重要性,数据显示只有7%的组织被视为专家,36%认为自己成熟,43%正在改进。成熟的团队能更有效地识别问题,减少用户报告的故障。投资可观察性成熟度能提升运营效率和服务可靠性,推动组织向更高的成熟度发展。

提升可观察性实践 — 第1部分

Elastic Blog - Elasticsearch, Kibana, and ELK Stack
Elastic Blog - Elasticsearch, Kibana, and ELK Stack · 2024-11-20T00:00:00Z
组织架构

本文讨论了组织形态对服务可靠性的直接影响,通过消费者旅程创建健康的组织和可靠的系统。文章介绍了不同组织结构的优缺点和组织架构的重要性,以及如何利用消费者旅程设计可靠的组织。

组织架构

Alex Ewerlöf Notes
Alex Ewerlöf Notes · 2024-07-26T21:20:43Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码