小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

The presenters discuss incident response, how AI-enhanced SRE platforms connect signals from logs, metrics, traces, and historical incidents to enable autonomous decisions. By Rohit Dhawan, Pavan...

Presentation: AI-Powered SRE for Autonomous Incident Response

InfoQ
InfoQ · 2026-04-28T11:21:00Z

现代可观测性是一个复杂的工程体系,涉及数据模型、传输协议和存储结构。本文针对SRE、平台工程师和架构师,探讨如何优化可观测栈、选择合适工具以及治理SLO与告警。内容包括可观测性基础、三大支柱、eBPF与内核可观测性,以及治理与工程落地,适合相关专业人士阅读。

可观测性工程

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文总结了《Google SRE Book》的主要内容,介绍了SRE(站点可靠性工程)的方法与原则,包括监控、应急响应、变更管理和服务水平目标。强调自动化的重要性、风险管理以及在分布式系统中处理故障的策略。SRE团队的目标是提高系统可靠性,同时保持开发速度,确保服务的可用性和性能。

Google SRE Book 读书笔记

暗无天日
暗无天日 · 2026-04-15T00:00:00Z
作为SRE阅读《DDIA》

在准备系统设计面试时,我阅读了《DDIA》,重新理解了两个事件:事件1因新枚举值发布顺序不当导致支付错误率异常;事件2因数据库内部错误导致支付请求下降,根本原因是过度依赖数据库查询。学习中,我认识到在分布式数据库中管理时间的重要性,以确保数据一致性。

作为SRE阅读《DDIA》

Henry Z's blog
Henry Z's blog · 2026-03-22T04:55:56Z
代理人工智能在生产中为何停滞不前——控制层如何解决这一问题

代理人工智能为SRE、平台工程师和AI/ML团队提供了机遇,但仅依赖生成模型无法满足生产系统需求。实现可靠的自主决策需依赖实时系统数据和控制层,以确保可扩展性和稳定性。

代理人工智能在生产中为何停滞不前——控制层如何解决这一问题

The New Stack
The New Stack · 2026-03-17T13:00:16Z
从呼叫到事后分析:谷歌云SRE团队如何利用Gemini CLI应对故障

谷歌云SRE团队利用AI驱动的Gemini CLI提升基础设施可靠性,缩短响应时间。Gemini CLI在故障各阶段提供支持,降低平均缓解时间(MTTM),并通过动态生成的缓解手册确保安全变更。事后分析为未来改进提供训练数据,形成自我提升循环。

从呼叫到事后分析:谷歌云SRE团队如何利用Gemini CLI应对故障

InfoQ
InfoQ · 2026-02-14T11:32:00Z
誉天Linux SRE云计算架构师[完结无密]

Linux SRE云计算架构师脱产班提供多阶段课程,涵盖Linux系统、MySQL、Docker、Kubernetes等内容,适合希望深入学习云计算架构的学员。课程以视频形式呈现,购买后不支持退货,价格为89积分,VIP会员62.3积分。

誉天Linux SRE云计算架构师[完结无密]

浅时光博客
浅时光博客 · 2026-02-07T09:44:18Z
代理革命:SRE的新愿景

站点可靠性工程师(SRE)在确保数字服务的可靠性中至关重要,但手动流程降低了其效率。AI代理可以自动化重复任务,提高运营效率,使SRE团队能够专注于关键问题。有效的AI工具能够持续学习,优化问题解决过程,减少人工干预,提升整体工作效率。

代理革命:SRE的新愿景

The New Stack
The New Stack · 2026-01-27T18:00:55Z
AI运维与SRE代理:比较AI事件响应工具

AI运维代理正在兴起,旨在简化故障处理和根本原因诊断。它们连接监控工具和CI/CD管道,快速识别问题并提供解决方案。云服务商如AWS和微软推出相关产品,强调调查和建议而非自动化操作。评估这些代理时,应关注其环境理解能力和集成深度,以逐步建立信任。

AI运维与SRE代理:比较AI事件响应工具

The New Stack
The New Stack · 2026-01-26T19:00:56Z
AI SRE圆桌会议:新类别的创建

随着AI驱动的代码生成工具的兴起,AI SRE概念逐渐流行。专家认为,AI能提升运营效率,但人类仍需参与高层决策。企业应投资培训,以更好地与AI工具协作。未来,AI SRE工具将更直观,推动更多自动化,但需谨慎应对技术挑战。

AI SRE圆桌会议:新类别的创建

The New Stack
The New Stack · 2026-01-21T23:00:03Z
SRE中人工智能的未来:预防故障,而非修复故障

SRE的未来在于通过历史数据和AI预防故障,而非快速反应。系统可识别不稳定模式,优化基础设施,预测需求,减少故障。关键在于建立结构化事件知识、集成拓扑映射和AI治理,以实现可靠性设计,提升系统韧性,减少人工干预。

SRE中人工智能的未来:预防故障,而非修复故障

The New Stack
The New Stack · 2026-01-17T14:00:51Z
演讲:在SLO违约重复之前修复它们:一个用于应用工作负载的SRE AI代理

布鲁诺·博尔赫斯在微软演讲中指出,性能不仅是速度,还需满足客户期望,需平衡成本、速度与需求。通过识别瓶颈和优化流程,SRE团队能提升系统效率。自动化和AI的应用将加速问题诊断与解决,增强性能管理。

演讲:在SLO违约重复之前修复它们:一个用于应用工作负载的SRE AI代理

InfoQ
InfoQ · 2025-12-29T15:09:00Z

Zabavi se i osvoji: Plinko igra za trenutnu sreću i vel […]

Zabavi se i osvoji Plinko igra za trenutnu sreću i velike nagrade čeka te!

运维派
运维派 · 2025-11-21T23:18:28Z
大型语言模型打破了SRE运行手册。接下来该怎么办?

可靠性工程师在现代软件中至关重要。随着AI时代的到来,输出变得不确定,传统工具和方法面临挑战。SREs需适应新的监控和评估方式,关注业务指标而非单一信号。尽管许多团队感到滞后,实际上大家都在探索中,MLOps仍有许多未解问题。

大型语言模型打破了SRE运行手册。接下来该怎么办?

The New Stack
The New Stack · 2025-11-05T18:00:05Z
演讲:你问错问题了(关于可靠性和SRE)

大卫·布兰克-埃德尔曼分享了成功公共演讲的十个技巧,强调可靠性的重要性,包括可用性、延迟、吞吐量和准确性。他指出,理解系统的工作和故障是SRE思维的核心,并强调从客户角度衡量可靠性。最后,他探讨了在组织中推广SRE和自动化的方式。

演讲:你问错问题了(关于可靠性和SRE)

InfoQ
InfoQ · 2025-11-03T15:25:00Z
如何使用Warp的代理编程管理Kubernetes集群

Warp是一个专为DevOps和SRE工程师设计的AI驱动开发环境。与传统的代码优先IDE不同,Warp将代理集成到终端中,简化管理和DevOps任务。用户可以在虚拟机上快速无命令安装Kubernetes集群,配置网络和存储,整个过程约8分钟,效率高于手动安装。

如何使用Warp的代理编程管理Kubernetes集群

The New Stack
The New Stack · 2025-10-31T14:00:29Z
演讲:从基层到企业:Vanguard在SRE转型中的旅程

Christina Yakomin分享了Vanguard在SRE转型中的经历,强调了从传统性能测试到现代微服务架构和混沌工程的转变。Vanguard通过自助工具和教练团队的建立,提高了团队的可靠性和敏捷性,推动了持续交付和性能测试的自助化,最终实现了更高的业务价值和系统韧性。

演讲:从基层到企业:Vanguard在SRE转型中的旅程

InfoQ
InfoQ · 2025-10-06T13:06:00Z
我在Autodesk的职业回顾

作为SRE,我在Autodesk的经历让我收获颇丰。尽管经历裁员,我仍实现了职业目标,提升了技术和沟通能力,并通过监控和预防措施提高了服务可靠性。现在,我将专注于照顾新生儿。

我在Autodesk的职业回顾

Henry Z's blog
Henry Z's blog · 2025-10-05T12:00:00Z
SRE报告回顾 — AIOps预测是否仍然有效?

Catchpoint每年发布SRE报告,调查全球站点可靠性工程师的现状与挑战。2021年报告关注AIOps,尽管行业热情高,但实际采用缓慢。2023年数据显示,管理层与用户对AIOps价值的认知差异明显。2024年,AIOps搜索兴趣激增,市场逐渐成熟,预计到2029年市场规模将达320亿美元。成功实施AIOps需关注具体能力、务实用例和培训投资。

SRE报告回顾 — AIOps预测是否仍然有效?

The New Stack
The New Stack · 2025-08-22T17:00:36Z

本文分析了Google工程师在生产事故中的真实行为,探讨了不同角色在调试过程中的思维模型和工具选择。总结了调试的核心循环:检测、分类、调查和缓解,强调经验对工具使用的影响,并指出常见故障根源。最后,提供了实用的调试原则,以帮助工程师更有效地解决复杂系统问题。

Google 揭秘生产环境调试心法:SRE 与 SWE 的四大思维差异与实战路径

Tony Bai
Tony Bai · 2025-08-09T23:59:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码