小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
隔离系统的可靠性工程

在防务行业,团队面临系统隔离,无法实时获取数据。通过创建简单的仪表板和警报,操作人员能够监测系统状态,快速识别问题并自我修复,从而提高系统可靠性和操作人员信心。

隔离系统的可靠性工程

Alex Ewerlöf Notes
Alex Ewerlöf Notes · 2026-04-03T21:03:06Z
扩展自主站点可靠性工程:90,000+服务器集群的架构、编排与验证

Cloudways通过AI SRE代理优化支持服务,减少了对人工支持的需求。AI代理提供快速故障排查,确保客户应用及时恢复。Cloudways Copilot结合监控、AI代理和验证机制,提高了服务效率,降低了人为错误。

扩展自主站点可靠性工程:90,000+服务器集群的架构、编排与验证

The DigitalOcean Blog
The DigitalOcean Blog · 2026-03-13T15:49:48Z
多代理系统的可靠性

多代理系统通过分工提升大型语言模型(LLM)的可靠性,解决其慢和不可靠的问题。文章介绍了四种架构模式:层级、共识、对抗辩论和淘汰,旨在帮助工程师构建更优的LLM解决方案。强调人类反馈机制和自我纠正能力,建议将这些元素与可靠性工程结合,以提升多代理系统性能。

多代理系统的可靠性

Alex Ewerlöf Notes
Alex Ewerlöf Notes · 2026-02-19T20:41:37Z
以人为本的人工智能在站点可靠性工程中的应用:多智能体事件响应与控制的平衡

研究表明,组织在站点可靠性工程中逐渐采用多智能体AI系统来辅助工程师进行事件调查。AI负责提出假设和查询,人类则进行判断。研究发现,集中式团队结构更有效,强调明确角色设计和安全控制,以减少混乱、提高效率。总体而言,AI是增强工程师的工作,而非取代。

以人为本的人工智能在站点可靠性工程中的应用:多智能体事件响应与控制的平衡

InfoQ
InfoQ · 2026-01-18T09:00:00Z
人工智能可靠性工程:欢迎来到SRE的第三个时代

随着AI推理工作负载的增加,AI可靠性工程(AIRe)应运而生。推理不仅是模型执行,还涉及实时和批处理操作。AI模型需具备高可用性和低延迟,传统SRE原则需应对模型衰退和准确性SLA等新挑战。AI网关成为现代SRE的重要工具,以确保智能系统的可靠性。

人工智能可靠性工程:欢迎来到SRE的第三个时代

The New Stack
The New Stack · 2025-06-04T20:00:27Z
平台工程与站点可靠性工程(SRE)

文章核心主题是平台工程与站点可靠性工程(SRE)之间的区别与联系,探讨了它们在DevOps环境中的角色与重要性。

平台工程与站点可靠性工程(SRE)

DEV Community
DEV Community · 2025-05-27T19:54:00Z
网站可靠性工程基础:在SRE中可以期待什么

网站可靠性工程(SRE)结合软件工程与运营实践,确保服务的可靠性与性能。SRE工程师通过自动化简化操作,提升系统可靠性,促进创新。核心原则包括接受风险、设定服务水平目标(SLO)和指标(SLI),并通过自动化减少重复工作。SRE在现代IT基础设施中发挥关键作用,帮助企业应对复杂性,提升服务可用性与用户体验。

网站可靠性工程基础:在SRE中可以期待什么

Elastic Blog - Elasticsearch, Kibana, and ELK Stack
Elastic Blog - Elasticsearch, Kibana, and ELK Stack · 2025-05-22T00:00:00Z
网站可靠性工程要点:网站可靠性工程的期待内容

网站可靠性工程(SRE)结合软件工程与IT运营,旨在提高服务的可靠性和性能。SRE工程师通过自动化和监测优化系统,减少故障,确保高可用性。核心原则包括接受风险、设定服务级别目标(SLO)和指标(SLI),并利用自动化工具提升效率。SRE在现代企业中至关重要,帮助应对复杂的分布式系统,促进创新与可靠性之间的平衡。

网站可靠性工程要点:网站可靠性工程的期待内容

Elastic Blog
Elastic Blog · 2025-05-22T00:00:00Z
2025年12大站点可靠性工程(SRE)咨询与支持公司

现代站点可靠性工程(SRE)是确保系统可扩展性和韧性的标准。选择合适的SRE咨询公司至关重要,这些公司帮助组织优化事件管理和自动化操作。在评估最佳SRE咨询公司时,应关注其专业知识、技术认证和成功案例等关键领域。

2025年12大站点可靠性工程(SRE)咨询与支持公司

DEV Community
DEV Community · 2025-05-09T10:40:20Z
什么是网站可靠性工程(SRE)?初学者指南

在数字时代,网站可靠性工程(SRE)通过结合IT运维与软件工程,主动维护系统的可靠性。SRE利用自动化、监控和与开发团队的协作,提高服务可用性,减少故障影响,推动持续改进。

什么是网站可靠性工程(SRE)?初学者指南

freeCodeCamp.org
freeCodeCamp.org · 2025-03-26T16:07:59Z

本文推荐了2024年值得阅读的10本技术书籍,强调优秀书籍应挑战思维并结合实践,涵盖Java开发、软件架构和可靠性工程等,适合不同层次的工程师,旨在提升技能与视野。

2024年我读过的10本技术书籍(Java、架构、SRE运维)

京东科技开发者
京东科技开发者 · 2025-02-26T03:20:22Z
网站可靠性工程的内部现实:来自开发关系视角的经验教训

这篇文章分享了SRE(网站可靠性工程)工作中的真实故事与挑战。作者指出,尽管SRE不希望出现故障,但面对警报时的紧张感令人兴奋。同时,他们羡慕开发者的专注,意识到人为错误可能导致系统崩溃。文章强调大规模演练和变更管理对提高系统可靠性的重要性。

网站可靠性工程的内部现实:来自开发关系视角的经验教训

DEV Community
DEV Community · 2025-02-14T08:14:27Z

SRE 通过核心原则来构建弹性系统,例如设定 SLO 并使用 SLI 来衡量它们,管理错误预算,实施事件管理流程,规划和扩展容量,自动化任务,以及监控和可观察性。

站点可靠性工程的支柱:构建弹性系统

DEV Community
DEV Community · 2024-09-05T08:03:37Z
可靠性工程思维方式

本文探讨了可靠性工程的思维方式,重点在于建立、维护和发展可靠软件产品。内容分为三个部分:可靠性、工程和心态,强调服务水平指标(SLI)和服务水平目标(SLO)的定义及其在团队中的应用,突出团队和个人的责任与所有权。通过实例和工具,帮助团队识别风险、设定合理目标,提升软件的可靠性和透明度。

可靠性工程思维方式

Alex Ewerlöf Notes
Alex Ewerlöf Notes · 2024-07-24T12:27:03Z
服务降级与服务中断

在可靠性工程中,服务降级、服务中断和服务停运是三个相关但有时被错误使用的术语。可用性、服务降级和服务中断是区分这些差异的四个方面。服务降级是指核心功能仍可用,但服务质量较差;服务中断是指核心功能完全停止。影响范围是区分服务降级和中断的一个因素。服务降级对业务影响较小,而服务中断则有更严重的后果。

服务降级与服务中断

Alex Ewerlöf Notes
Alex Ewerlöf Notes · 2024-07-10T13:49:59Z
百分位数

本文介绍了度量指标和百分位数的概念,度量指标是带有时间戳和标签的值数组,百分位数是根据排序后的数据点选择的数据。百分位数可以帮助我们找到异常值,并在可靠性工程和性能优化中非常有用。使用百分位数可以选择分析实际数据的子集,并采取有针对性的行动。开始优化时,可以从常见的百分位数开始,逐渐关注异常值。没有适用于所有数据集的通用规则,最好根据排序后的数据来选择百分位数。

百分位数

Alex Ewerlöf Notes
Alex Ewerlöf Notes · 2024-06-25T17:06:35Z
服务

本文介绍了可靠性工程中的服务水平指标(SLI)和服务水平目标(SLO),并提供了对服务的具体定义。服务是一方提供给另一方消费的解决方案,旨在解决问题或实现目标。服务水平是消费者感知的服务质量,应与预算相匹配。服务水平指标应是值得报警的关键指标,而不是诊断指标。服务水平不仅适用于系统和代码,还包括手动服务。服务水平的应用范围不仅限于团队层面,还可以在组织单位中使用,以使服务可靠性成为领导层的关注重点。

服务

Alex Ewerlöf Notes
Alex Ewerlöf Notes · 2024-05-14T11:23:10Z
谷歌与Uplimit合作推出免费网站可靠性工程课程

Google与Uplimit合作提供免费的Google网站可靠性工程课程,旨在为工程师准备SRE职位。课程由Google资深网站可靠性工程师教授,3月11日开始,名额有限。

谷歌与Uplimit合作推出免费网站可靠性工程课程

KDnuggets
KDnuggets · 2024-02-29T18:00:25Z

谷歌站点可靠性工程的11个经验教训,包括故障削减措施与故障严重程度成比例、全面测试恢复机制、金丝雀变更、备份通信通道、故障弹性测试等。这些教训通过谷歌在不同故障中的经验总结而来,对提高系统可靠性和稳定性至关重要。

从谷歌 20 年的站点可靠性工程(SRE)中学到的 11 个经验教训

程序师
程序师 · 2023-11-14T02:37:56Z

Google站点可靠性工程师总结11件事,包括测试恢复机制、金丝雀监控、大红色按钮、优雅降级、抗灾测试。文章提到Google的故障案例和避免方法。

谷歌:二十年站点可靠性工程的经验教训

极道
极道 · 2023-10-30T02:34:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码