小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
简化故障注入,读懂应用影响:用 AI Agent 做混沌工程

本文介绍了如何通过三个AI Agent技能简化混沌工程的实施。AI Agent能够自动完成故障注入、日志采集和分析,降低了门槛,使非专家也能参与。用户通过描述测试意图,可以快速进行实验,提升系统韧性,推动专业能力的普惠化。

简化故障注入,读懂应用影响:用 AI Agent 做混沌工程

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-04-20T07:20:33Z
SRE中人工智能的未来:预防故障,而非修复故障

SRE的未来在于通过历史数据和AI预防故障,而非快速反应。系统可识别不稳定模式,优化基础设施,预测需求,减少故障。关键在于建立结构化事件知识、集成拓扑映射和AI治理,以实现可靠性设计,提升系统韧性,减少人工干预。

SRE中人工智能的未来:预防故障,而非修复故障

The New Stack
The New Stack · 2026-01-17T14:00:51Z
大规模一致性:统一Temporal和YugabyteDB

Manetu通过开源集成Temporal和YugabyteDB,简化数据架构,提升系统韧性和信任,确保在高负载下工作流执行和数据完整性,为企业在AI时代奠定坚实基础。

大规模一致性:统一Temporal和YugabyteDB

The New Stack
The New Stack · 2025-09-25T15:00:25Z
IT编排是顺畅、可扩展IT运营的秘密

成功的音乐节如Coachella背后需要复杂的协调与资源管理,类似于IT运营。IT团队需高效管理任务,预防故障,确保顺利部署。编排解决方案应动态分配资源、管理依赖关系、实时监控,以提升系统韧性。有效的编排策略需明确工作流程、优先考虑安全,并设计应对失败的机制,以适应变化的环境。

IT编排是顺畅、可扩展IT运营的秘密

The New Stack
The New Stack · 2025-08-03T17:00:32Z
基于 Amazon Q Developer CLI 进行智能混沌工程实验

混沌工程通过受控实验识别系统弱点,增强系统韧性。AWS结合生成式AI,简化实验设计与执行,降低技术门槛,提高效率,使更多团队能够利用混沌工程构建可靠系统。

基于 Amazon Q Developer CLI 进行智能混沌工程实验

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-07-16T03:13:54Z
应对复杂性:从AI战略到韧性架构——InfoQ开发峰会慕尼黑2025

InfoQ关注软件专业人士面临的挑战,主要讨论负责任地整合AI、构建安全系统和应对复杂法规。10月15-16日的InfoQ开发峰会将深入探讨这些主题,提供实用见解和策略,帮助与会者应对AI和系统韧性挑战。

应对复杂性:从AI战略到韧性架构——InfoQ开发峰会慕尼黑2025

InfoQ
InfoQ · 2025-07-04T09:00:00Z
平台工程:DevOps团队的下一次进化

平台工程通过标准化工具和流程,简化开发生命周期,使开发者专注于功能交付而非基础设施问题。与传统DevOps相比,它提升了开发者的生产力、标准化和快速入职,确保系统韧性,对CTO、开发者和IT顾问至关重要。

平台工程:DevOps团队的下一次进化

DEV Community
DEV Community · 2025-05-09T04:41:48Z
疫情后构建韧性IT系统:2025年的展望

疫情促使全球IT领导者重视系统韧性,预计到2025年,企业需构建灵活、安全且适应性强的IT系统。云原生架构、自动化、零信任安全和数据连续性成为关键要素。同时,文化与协作也至关重要,以推动组织在不确定性中实现创新与发展。

疫情后构建韧性IT系统:2025年的展望

DEV Community
DEV Community · 2025-04-28T10:48:48Z
电路断路器:它是什么以及为什么如此重要?

电路断路器是一种保护机制,防止临时故障影响系统。它通过监控请求状态,分为关闭、打开和半打开三种状态。当故障率超过阈值时,断路器会停止请求,给服务恢复时间,从而提高系统韧性,避免级联故障,改善响应时间,提供故障监控。对于微服务或外部API的应用,实施断路器至关重要。

电路断路器:它是什么以及为什么如此重要?

DEV Community
DEV Community · 2025-04-06T22:28:57Z
DiRMA:评估您的组织如何管理混沌

混沌工程(CE)和灾难恢复测试(DiRT)是应对现代技术挑战的重要方法。DiRT通过故意引发故障来增强系统韧性,揭示潜在风险。新框架DiRMA评估DiRT在人员、流程和工具方面的成熟度,帮助组织克服文化阻力和度量问题,推动持续改进。

DiRMA:评估您的组织如何管理混沌

InfoQ
InfoQ · 2025-03-28T09:00:00Z
使用混沌工程进行API模拟:受控故障模拟指南

混沌工程通过故意引入故障来测试系统韧性,发现潜在漏洞。API模拟允许开发者在不影响实时系统的情况下模拟外部服务和故障。结合这两者,可以在安全环境中进行实验,优化系统性能,提高应对意外问题的能力。

使用混沌工程进行API模拟:受控故障模拟指南

DEV Community
DEV Community · 2025-02-21T07:00:00Z
演讲:拥抱无服务器架构中的失败艺术

在构建无服务器架构时,开发者需关注超时和重试机制,以防止系统崩溃。了解服务限制和部分失败是确保架构可靠性的关键。合理配置可提升系统韧性,减少数据丢失。

演讲:拥抱无服务器架构中的失败艺术

InfoQ
InfoQ · 2025-02-19T09:39:00Z
利用人工智能扩展数千用户的服务

企业可利用AI模型处理用户咨询,以降低运营成本和提升用户体验。通过API Gateway和Elasticsearch等机制,确保系统的韧性和响应能力。用户反馈用于持续改进模型,但需注意AI可能出现的错误。

利用人工智能扩展数千用户的服务

DEV Community
DEV Community · 2025-02-13T23:23:16Z
混沌测试:确保现代系统的韧性

混沌测试通过故意引入故障来评估系统韧性,识别弱点并增强可靠性,特别适用于分布式系统。其核心原则包括识别正常状态、引入控制混乱和分析响应。尽管面临风险管理和组织支持等挑战,但通过小规模测试和跨职能团队合作,可以有效提升系统抗压能力。

混沌测试:确保现代系统的韧性

DEV Community
DEV Community · 2025-01-13T13:17:26Z
混沌测试详解:全面指南

混沌测试是一种通过故意引入故障来评估系统韧性和可靠性的方法,源于Netflix的Chaos Monkey工具。它旨在识别系统弱点,提升应对意外情况的能力,尤其是在分布式系统中。核心原则包括接受失败、在生产环境中测试和限制实验范围,目标是识别弱点、验证冗余机制并提高恢复时间。

混沌测试详解:全面指南

DEV Community
DEV Community · 2025-01-09T07:36:23Z

2024年12月11日,OpenAI因新上线的Telemetry服务导致系统宕机,控制面请求过载引发级联故障。文章探讨了微服务架构的风险,并提出了解耦、发布管理、预警和故障演练等策略,以提升系统韧性。

从OpenAI大规模宕机谈起:微服务时代的“互相依赖”如何让我们在高负载下不堪一击? - 蝈蝈俊

蝈蝈俊
蝈蝈俊 · 2024-12-16T05:41:00Z
促进成功学习回顾的四种方法

在事件后进行学习回顾时,应平衡全面性与效率。组织需分析事件表现,以提升系统韧性和应对能力。成熟的学习回顾重视复杂系统的理解,建立无责文化,鼓励开放对话,关注人际互动和系统关系,促进持续改进和学习。

促进成功学习回顾的四种方法

The New Stack
The New Stack · 2024-12-04T17:00:18Z
DevOps:向右转以实现真实世界的验证

Shift Right DevOps 强调在实际环境中进行测试、监控和验证,以确保应用程序在真实条件下的性能。核心原则包括生产中测试、持续监控、用户反馈收集、增强系统韧性和持续改进。这些方法帮助团队快速发现问题,提高用户体验和系统可靠性。

DevOps:向右转以实现真实世界的验证

DEV Community
DEV Community · 2024-12-02T07:26:09Z
使用AWS FIS和Lambda进行混沌工程

AWS的故障注入服务(FIS)现已支持AWS Lambda,允许用户在不同故障条件下测试系统表现。FIS结合混沌工程原则,用户可对18种AWS资源进行实验,分析系统性能。FIS为Lambda提供三种操作,帮助测试错误处理和超时事件,并通过配置S3存储实验设置,增强对系统韧性和响应能力的理解。

使用AWS FIS和Lambda进行混沌工程

DEV Community
DEV Community · 2024-11-20T20:30:00Z
LitmusChaos在非生产环境中的应用逐渐增加

LitmusChaos是一款开源混沌工程工具,帮助企业在非生产环境中测试系统韧性,提前发现问题,降低停机风险。Emirates NBD、Infor和Wingie Enuygun等公司已使用该工具,提升基础设施可靠性和产品质量,推动韧性文化发展。

LitmusChaos在非生产环境中的应用逐渐增加

Cloud Native Computing Foundation
Cloud Native Computing Foundation · 2024-11-13T16:56:41Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码