小红花·文摘

Zenjoy 基于 Amazon Bedrock 和 EKS 构建 AIOps Agent：打通 Prometheus、ES 与夜莺的智能化告警实战

亚马逊AWS官方博客 ·

本章介绍如何通过免费增值服务提升应用用户体验，包括邮件服务、监控告警和数据分析。推荐使用Resend、UptimeRobot和Umami等工具，帮助开发者以零成本实现专业化应用。

穷鬼套餐第5章:锦上添花 —— 免费增值服务全攻略

SagaSu的博客 ·

运维自动化系统各模块介绍

运维咖啡吧 ·

短信发送API：企业通信的数字化桥梁

APISpace ·

稳定性建设需要具体的建设活动，涉及人员、机制和文化。建立团队流程机制来保障稳定性，通过流程和规范减少人为因素导致的故障。SRE是一种对系统稳定性的解决方案，需要转变态度和方式。稳定性工作重在预防，70%的故障可以通过预防工作消除。稳定性建设需要团队参与、完善监控告警、检查隐患。系统在大促时需要处理高并发流量和多样化业务场景。SRE需要快速解决问题和推动解决风险。

【稳定性】浅谈团队如何做好系统稳定性

京东科技开发者 ·

本文介绍了K8s集群CoreDNS监控告警的最佳实践，使用CCE集群插件kube-prometheus-stack进行指标监控，通过AOM2.0服务展示和通知告警。文章列举了coreDNS的关键指标，包括请求速率、请求数据包大小、响应速率、响应时延、缓存。最后介绍了配置和触发coreDNS的告警规则。