小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
隔离系统的可靠性工程

在防务行业,团队面临系统隔离,无法实时获取数据。通过创建简单的仪表板和警报,操作人员能够监测系统状态,快速识别问题并自我修复,从而提高系统可靠性和操作人员信心。

隔离系统的可靠性工程

Alex Ewerlöf Notes
Alex Ewerlöf Notes · 2026-04-03T21:03:06Z
扩展自主站点可靠性工程:90,000+服务器集群的架构、编排与验证

Cloudways通过AI SRE代理优化支持服务,减少了对人工支持的需求。AI代理提供快速故障排查,确保客户应用及时恢复。Cloudways Copilot结合监控、AI代理和验证机制,提高了服务效率,降低了人为错误。

扩展自主站点可靠性工程:90,000+服务器集群的架构、编排与验证

The DigitalOcean Blog
The DigitalOcean Blog · 2026-03-13T15:49:48Z
多代理系统的可靠性

多代理系统通过分工提升大型语言模型(LLM)的可靠性,解决其慢和不可靠的问题。文章介绍了四种架构模式:层级、共识、对抗辩论和淘汰,旨在帮助工程师构建更优的LLM解决方案。强调人类反馈机制和自我纠正能力,建议将这些元素与可靠性工程结合,以提升多代理系统性能。

多代理系统的可靠性

Alex Ewerlöf Notes
Alex Ewerlöf Notes · 2026-02-19T20:41:37Z
以人为本的人工智能在站点可靠性工程中的应用:多智能体事件响应与控制的平衡

研究表明,组织在站点可靠性工程中逐渐采用多智能体AI系统来辅助工程师进行事件调查。AI负责提出假设和查询,人类则进行判断。研究发现,集中式团队结构更有效,强调明确角色设计和安全控制,以减少混乱、提高效率。总体而言,AI是增强工程师的工作,而非取代。

以人为本的人工智能在站点可靠性工程中的应用:多智能体事件响应与控制的平衡

InfoQ
InfoQ · 2026-01-18T09:00:00Z
人工智能可靠性工程:欢迎来到SRE的第三个时代

随着AI推理工作负载的增加,AI可靠性工程(AIRe)应运而生。推理不仅是模型执行,还涉及实时和批处理操作。AI模型需具备高可用性和低延迟,传统SRE原则需应对模型衰退和准确性SLA等新挑战。AI网关成为现代SRE的重要工具,以确保智能系统的可靠性。

人工智能可靠性工程:欢迎来到SRE的第三个时代

The New Stack
The New Stack · 2025-06-04T20:00:27Z
平台工程与站点可靠性工程(SRE)

文章核心主题是平台工程与站点可靠性工程(SRE)之间的区别与联系,探讨了它们在DevOps环境中的角色与重要性。

平台工程与站点可靠性工程(SRE)

DEV Community
DEV Community · 2025-05-27T19:54:00Z
网站可靠性工程基础:在SRE中可以期待什么

网站可靠性工程(SRE)结合软件工程与运营实践,确保服务的可靠性与性能。SRE工程师通过自动化简化操作,提升系统可靠性,促进创新。核心原则包括接受风险、设定服务水平目标(SLO)和指标(SLI),并通过自动化减少重复工作。SRE在现代IT基础设施中发挥关键作用,帮助企业应对复杂性,提升服务可用性与用户体验。

网站可靠性工程基础:在SRE中可以期待什么

Elastic Blog - Elasticsearch, Kibana, and ELK Stack
Elastic Blog - Elasticsearch, Kibana, and ELK Stack · 2025-05-22T00:00:00Z
网站可靠性工程要点:网站可靠性工程的期待内容

网站可靠性工程(SRE)结合软件工程与IT运营,旨在提高服务的可靠性和性能。SRE工程师通过自动化和监测优化系统,减少故障,确保高可用性。核心原则包括接受风险、设定服务级别目标(SLO)和指标(SLI),并利用自动化工具提升效率。SRE在现代企业中至关重要,帮助应对复杂的分布式系统,促进创新与可靠性之间的平衡。

网站可靠性工程要点:网站可靠性工程的期待内容

Elastic Blog
Elastic Blog · 2025-05-22T00:00:00Z
2025年12大站点可靠性工程(SRE)咨询与支持公司

现代站点可靠性工程(SRE)是确保系统可扩展性和韧性的标准。选择合适的SRE咨询公司至关重要,这些公司帮助组织优化事件管理和自动化操作。在评估最佳SRE咨询公司时,应关注其专业知识、技术认证和成功案例等关键领域。

2025年12大站点可靠性工程(SRE)咨询与支持公司

DEV Community
DEV Community · 2025-05-09T10:40:20Z
什么是网站可靠性工程(SRE)?初学者指南

在数字时代,网站可靠性工程(SRE)通过结合IT运维与软件工程,主动维护系统的可靠性。SRE利用自动化、监控和与开发团队的协作,提高服务可用性,减少故障影响,推动持续改进。

什么是网站可靠性工程(SRE)?初学者指南

freeCodeCamp.org
freeCodeCamp.org · 2025-03-26T16:07:59Z

本文推荐了2024年值得阅读的10本技术书籍,强调优秀书籍应挑战思维并结合实践,涵盖Java开发、软件架构和可靠性工程等,适合不同层次的工程师,旨在提升技能与视野。

2024年我读过的10本技术书籍(Java、架构、SRE运维)

京东科技开发者
京东科技开发者 · 2025-02-26T03:20:22Z
网站可靠性工程的内部现实:来自开发关系视角的经验教训

这篇文章分享了SRE(网站可靠性工程)工作中的真实故事与挑战。作者指出,尽管SRE不希望出现故障,但面对警报时的紧张感令人兴奋。同时,他们羡慕开发者的专注,意识到人为错误可能导致系统崩溃。文章强调大规模演练和变更管理对提高系统可靠性的重要性。

网站可靠性工程的内部现实:来自开发关系视角的经验教训

DEV Community
DEV Community · 2025-02-14T08:14:27Z

SRE 通过核心原则来构建弹性系统,例如设定 SLO 并使用 SLI 来衡量它们,管理错误预算,实施事件管理流程,规划和扩展容量,自动化任务,以及监控和可观察性。

站点可靠性工程的支柱:构建弹性系统

DEV Community
DEV Community · 2024-09-05T08:03:37Z
可靠性工程心态

这本书分为三个部分:心态、工程和可靠性。心态部分通过实际例子建立了一种全面拥有的心态。工程部分讨论了提高架构和软件可靠性的技术。可靠性部分建立了关于可靠性的语言,并设定了服务级别指标、目标和协议。

可靠性工程心态

Alex Ewerlöf Notes
Alex Ewerlöf Notes · 2024-07-24T12:27:03Z
服务降级与服务中断

在可靠性工程中,服务降级、服务中断和服务停运是三个相关但有时被错误使用的术语。可用性、服务降级和服务中断是区分这些差异的四个方面。服务降级是指核心功能仍可用,但服务质量较差;服务中断是指核心功能完全停止。影响范围是区分服务降级和中断的一个因素。服务降级对业务影响较小,而服务中断则有更严重的后果。

服务降级与服务中断

Alex Ewerlöf Notes
Alex Ewerlöf Notes · 2024-07-10T13:49:59Z
百分位数

本文介绍了度量指标和百分位数的概念,度量指标是带有时间戳和标签的值数组,百分位数是根据排序后的数据点选择的数据。百分位数可以帮助我们找到异常值,并在可靠性工程和性能优化中非常有用。使用百分位数可以选择分析实际数据的子集,并采取有针对性的行动。开始优化时,可以从常见的百分位数开始,逐渐关注异常值。没有适用于所有数据集的通用规则,最好根据排序后的数据来选择百分位数。

百分位数

Alex Ewerlöf Notes
Alex Ewerlöf Notes · 2024-06-25T17:06:35Z
服务

本文介绍了可靠性工程中的服务水平指标(SLI)和服务水平目标(SLO),并提供了对服务的具体定义。服务是一方提供给另一方消费的解决方案,旨在解决问题或实现目标。服务水平是消费者感知的服务质量,应与预算相匹配。服务水平指标应是值得报警的关键指标,而不是诊断指标。服务水平不仅适用于系统和代码,还包括手动服务。服务水平的应用范围不仅限于团队层面,还可以在组织单位中使用,以使服务可靠性成为领导层的关注重点。

服务

Alex Ewerlöf Notes
Alex Ewerlöf Notes · 2024-05-14T11:23:10Z
谷歌与Uplimit合作推出免费网站可靠性工程课程

Google与Uplimit合作提供免费的Google网站可靠性工程课程,旨在为工程师准备SRE职位。课程由Google资深网站可靠性工程师教授,3月11日开始,名额有限。

谷歌与Uplimit合作推出免费网站可靠性工程课程

KDnuggets
KDnuggets · 2024-02-29T18:00:25Z

谷歌站点可靠性工程的11个经验教训,包括故障削减措施与故障严重程度成比例、全面测试恢复机制、金丝雀变更、备份通信通道、故障弹性测试等。这些教训通过谷歌在不同故障中的经验总结而来,对提高系统可靠性和稳定性至关重要。

从谷歌 20 年的站点可靠性工程(SRE)中学到的 11 个经验教训

程序师
程序师 · 2023-11-14T02:37:56Z

Google站点可靠性工程师总结11件事,包括测试恢复机制、金丝雀监控、大红色按钮、优雅降级、抗灾测试。文章提到Google的故障案例和避免方法。

谷歌:二十年站点可靠性工程的经验教训

极道
极道 · 2023-10-30T02:34:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码