小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
简化故障注入,读懂应用影响:用 AI Agent 做混沌工程

本文介绍了如何通过三个AI Agent技能简化混沌工程的实施。AI Agent能够自动完成故障注入、日志采集和分析,降低了门槛,使非专家也能参与。用户通过描述测试意图,可以快速进行实验,提升系统韧性,推动专业能力的普惠化。

简化故障注入,读懂应用影响:用 AI Agent 做混沌工程

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-04-20T07:20:33Z

混沌工程是一种通过主动制造故障来发现系统弱点的方法。Netflix通过Chaos Monkey等工具推动了这一理念的发展。与传统测试不同,混沌工程强调在生产环境中进行受控实验,以验证系统在异常情况下的表现。其核心原则包括建立稳态假设、模拟真实事件和持续自动化实验。通过混沌实验,团队能够发现并修复潜在脆弱点,从而提高系统韧性和团队信心。

【系统架构设计百科】混沌工程:主动验证系统的韧性

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-13T00:00:00Z
LitmusChaos 2025年第四季度更新:社区、贡献与项目进展

LitmusChaos社区在2025年第四季度持续增长,发布多个版本,提升用户体验和安全性。新MCP服务器使混沌工程更易访问。Hacktoberfest等社区活动促进了贡献者参与,展示开源合作的力量。

LitmusChaos 2025年第四季度更新:社区、贡献与项目进展

Cloud Native Computing Foundation
Cloud Native Computing Foundation · 2026-01-22T15:00:00Z

Jepsen报告指出,NATS JetStream在特定故障下可能会丢失已确认的数据,揭示了持久化承诺与实际情况之间的差距。默认的fsync策略每两分钟执行一次,导致数据在此期间仅存于内存中,增加了数据丢失的风险。开发者需谨慎配置,理解“已确认”与“已落盘”的区别,并引入混沌工程测试以识别系统脆弱性。

Jepsen 报告震动 Go 社区:NATS JetStream 会丢失已确认写入

Tony Bai
Tony Bai · 2025-12-11T15:14:24Z
机器学习数据管道压力测试指南

混沌工程通过模拟故障来增强机器学习管道的可靠性,测试数据管道、模型注册和特征存储的韧性,以确保系统在压力下的表现。使用Chaos Mesh和Python脚本识别潜在问题,提高AI系统的可观察性和容错能力。

机器学习数据管道压力测试指南

The New Stack
The New Stack · 2025-11-18T21:00:36Z
为什么你应该故意破坏你的机器学习管道

机器学习系统常常静默失败,导致隐性损害。与传统系统不同,AI系统的错误不易被察觉,可能因数据过时或特征漂移而产生不准确结果。混沌工程可以测试AI系统的韧性,通过故障注入识别潜在问题,从而提升系统的可靠性和用户信任。

为什么你应该故意破坏你的机器学习管道

The New Stack
The New Stack · 2025-11-12T19:00:52Z
谷歌云推出分布式系统混沌工程框架及实验方案

谷歌云专家服务团队发布了关于云分布式系统混沌工程的指南,强调故障模拟在构建弹性架构中的重要性。该框架基于五个原则,包括建立“稳定状态假设”、在生产环境中实验和自动化测试等。谷歌云推荐使用开源的Chaos Toolkit进行故障注入实验。混沌工程已被多家科技公司采用,Netflix和AWS等也开发了相关工具以提升系统韧性。

谷歌云推出分布式系统混沌工程框架及实验方案

InfoQ
InfoQ · 2025-11-12T09:00:00Z
演讲:从基层到企业:Vanguard在SRE转型中的旅程

Christina Yakomin分享了Vanguard在SRE转型中的经历,强调了从传统性能测试到现代微服务架构和混沌工程的转变。Vanguard通过自助工具和教练团队的建立,提高了团队的可靠性和敏捷性,推动了持续交付和性能测试的自助化,最终实现了更高的业务价值和系统韧性。

演讲:从基层到企业:Vanguard在SRE转型中的旅程

InfoQ
InfoQ · 2025-10-06T13:06:00Z
基于 Amazon Q Developer CLI 进行智能混沌工程实验

混沌工程通过受控实验识别系统弱点,增强系统韧性。AWS结合生成式AI,简化实验设计与执行,降低技术门槛,提高效率,使更多团队能够利用混沌工程构建可靠系统。

基于 Amazon Q Developer CLI 进行智能混沌工程实验

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-07-16T03:13:54Z

本研究提出了一种混沌工程框架,旨在识别大型语言模型多智能体系统的脆弱性,提升其韧性,确保关键应用的可靠性。

通过混沌工程评估和增强基于大型语言模型的多智能体系统的鲁棒性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z
模拟混沌:我最新的故障测试探索

文章讨论了混沌工程的实践,利用LocalStack的Chaos Dashboard测试无服务器应用的韧性。作者发现应用在故障时表现不佳,强调在生产环境前进行混沌测试的重要性。通过模拟错误,作者深入理解了应用的健壮性,并计划分享这一经验。

模拟混沌:我最新的故障测试探索

DEV Community
DEV Community · 2025-04-26T02:56:35Z
2025年KubeCon + CloudNativeCon欧洲大会上的LitmusChaos:回顾

云原生社区于2025年4月1日至4日在伦敦举办KubeCon + CloudNativeCon欧洲大会,LitmusChaos展示了混沌工程的新进展,包括与云IAM系统的集成和CI/CD中的自动混沌注入。与会者讨论了混沌工程的基础知识和工具,促进了社区交流与合作。

2025年KubeCon + CloudNativeCon欧洲大会上的LitmusChaos:回顾

Cloud Native Computing Foundation
Cloud Native Computing Foundation · 2025-04-25T13:04:26Z
微服务的混沌工程:使用Chaos Toolkit、Chaos Monkey、Kubernetes和Istio进行弹性测试

随着微服务和Kubernetes的普及,混沌工程成为提升系统弹性的关键方法。通过模拟故障,团队能够识别和修复潜在弱点,从而增强应用的可靠性。本文讨论了在Java和Node.js应用中实施混沌工程的步骤,包括工具的安装、配置及在Kubernetes和Istio环境中的实验执行。

微服务的混沌工程:使用Chaos Toolkit、Chaos Monkey、Kubernetes和Istio进行弹性测试

DEV Community
DEV Community · 2025-04-19T22:52:17Z
本周云计算:我第一个真正的无服务器应用(还是个表情包游戏)

作者在LocalStack上构建了一个无服务器的表情包游戏,使用了API Gateway、Lambda、DynamoDB和S3等技术,并通过Terraform定义基础设施代码。尽管遇到挑战,最终获得了信心,享受了本地安全测试的过程。接下来计划进行混沌工程实验。

本周云计算:我第一个真正的无服务器应用(还是个表情包游戏)

DEV Community
DEV Community · 2025-04-18T17:27:40Z
2025年主导的10个(+1)QA角色(包含表情包)

2025年QA领域涌现出幽默创新的角色,如回归之神、开发杀手和AI低语者,重塑软件测试并引领AI测试和混沌工程等新趋势。参与#QATypes2025活动,分享你的QA类型!

2025年主导的10个(+1)QA角色(包含表情包)

DEV Community
DEV Community · 2025-04-12T05:51:48Z

混沌工程是一种通过主动注入故障来提升分布式系统弹性和稳定性的方法。京东物流计划在2024年实施混沌实验,以分析核心业务线的风险,确保系统在故障情况下的应急能力。实验将在生产环境中谨慎进行,并持续自动化运行,以发现潜在问题,增强系统的韧性和可靠性。

【灯塔计划】【积微成著】规模化混沌工程体系建设及AI融合探索

京东科技开发者
京东科技开发者 · 2025-04-02T03:27:22Z
DiRMA:评估您的组织如何管理混沌

混沌工程(CE)和灾难恢复测试(DiRT)是应对现代技术挑战的重要方法。DiRT通过故意引发故障来增强系统韧性,揭示潜在风险。新框架DiRMA评估DiRT在人员、流程和工具方面的成熟度,帮助组织克服文化阻力和度量问题,推动持续改进。

DiRMA:评估您的组织如何管理混沌

InfoQ
InfoQ · 2025-03-28T09:00:00Z
使用混沌工程进行API模拟:受控故障模拟指南

混沌工程通过故意引入故障来测试系统韧性,发现潜在漏洞。API模拟允许开发者在不影响实时系统的情况下模拟外部服务和故障。结合这两者,可以在安全环境中进行实验,优化系统性能,提高应对意外问题的能力。

使用混沌工程进行API模拟:受控故障模拟指南

DEV Community
DEV Community · 2025-02-21T07:00:00Z
混沌工程测试:通过控制混沌构建韧性系统

混沌工程测试通过故意引入故障来识别系统弱点,帮助组织在问题发生前发现潜在漏洞,提升系统韧性和可靠性。通过模拟真实场景,增强系统应对意外事件的能力,促进持续改进。尽管存在风险和复杂性,混沌工程测试在现代软件开发中至关重要。

混沌工程测试:通过控制混沌构建韧性系统

DEV Community
DEV Community · 2025-01-25T00:13:14Z

本文针对混沌工程(CE)中的手动操作问题,提出了ChaosEater系统,利用大型语言模型(LLMs)自动化整个CE过程。该系统根据CE的系统周期预定义流程,并将其细分为操作分配给LLMs,实验证明此系统在执行CE周期时显著减少了时间和成本。

ChaosEater:利用大型语言模型完全自动化混沌工程

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-19T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码